Auditory Training
2022 · Programmation
· Machine Learning
·
Vidéo
·
Installation
Cette seconde méthode, c’est celle de Google, qui s’est, sans grande surprise, intéressé à la reconnaissance sonore dès 2006 après avoir racheté la plateforme YouTube l’année suivant sa création. En 2017, Google met au point AudioSet Ontology, une base de données en ligne regroupant 2 084 320 extraits d’événements sonores correspondant à 5800 heures d’audio, downloadés depuis des vidéos YouTube hiérarchisées et rangées dans 527 catégories de sons. Ainsi, ce sont les données d’utilisateurs de Youtube, des films de particuliers, qui se retrouvent exploitées dans cette base de données, utilisées pour stimuler les algorithmes de reconnaissance sonore, sans notre consentement explicite.
Pour la conception de ce logiciel, j’ai utilisé un réseau neuronal de reconnaissance sonore fonctionnant en temps réel. Les sons reconnus par le logiciel dans la pièce où il est installé s’affichent en live. J’ai décidé de réellement intervenir sur l’interface visuelle du logiciel pour me l’approprier et coder. J’ai ensuite travaillé l’interface visuelle avec Stéphane Blocquaux, intervenant à la Labomedia, qui m’a aidé à faire le pont entre le code du logiciel, du python, et processing pour mettre en place l’interface visuelle, en java. Ici, je souhaite montrer les vidéos dont sont issus les sons de la base de données de Google qui constituent pour moi une partie du cerveau algorithmique du programme que j’utilise. C’est une façon de donner à voir ce qui compose sa mémoire, une manière de comprendre comment les sons issus de ces vidéos constituent son apprentissage. Les vidéos correspondant à la catégorie reconnue s’affichent aléatoirement depuis la base de données de Google que j’ai reconstituée en local et en miniature sur un disque dur externe.
Les vidéos que nous postons sur Youtube ont une deuxième vie qui nous échappe totalement. Ce logiciel constitue un outil critique qui me permet de mettre à jour des zones d’ombres. Je suis descendu en profondeur, jusque dans la base de données de ces logiciels, afin de les documenter, de me les approprier puis de les restituer au spectateur afin qu’il puisse les comprendre à son tour.
Fonctionnement du logiciel sur ordinateur connecté à un microphone externe et à un disque dur contenant la base de données. Le son des vidéos provenant de la base de données et projetés au mur peuvent être écoutés dans un casque.
Photo : Paul de LanzacPhoto : Paul de Lanzac
Captures vidéos du logiciel fonctionnant en temps-réel.