Auditory Training

2022 · Programmation · Machine Learning · Vidéo · Installation

Ce programme est un modèle pré-entraîné qui s’appuie sur une base de données. Il y a deux manières d’élaborer des bases de données : soit en créant ses propres données, soit en les récupérant en ligne.

Cette seconde méthode, c’est celle de Google, qui s’est, sans grande surprise, intéressé à la reconnaissance sonore dès 2006 après avoir racheté la plateforme YouTube l’année suivant sa création. En 2017, Google met au point AudioSet Ontology, une base de données en ligne regroupant 2 084 320 extraits d’événements sonores correspondant à 5800 heures d’audio, downloadés depuis des vidéos YouTube hiérarchisées et rangées dans 527 catégories de sons. Ainsi, ce sont les données d’utilisateurs de Youtube, des films de particuliers, qui se retrouvent exploitées dans cette base de données, utilisées pour stimuler les algorithmes de reconnaissance sonore, sans notre consentement explicite.

Pour la conception de ce logiciel, j’ai utilisé un réseau neuronal de reconnaissance sonore fonctionnant en temps réel. Les sons reconnus par le logiciel dans la pièce où il est installé s’affichent en live. J’ai décidé de réellement intervenir sur l’interface visuelle du logiciel pour me l’approprier et coder. J’ai ensuite travaillé l’interface visuelle avec Stéphane Blocquaux, intervenant à la Labomedia, qui m’a aidé à faire le pont entre le code du logiciel, du python, et processing pour mettre en place l’interface visuelle, en java. Ici, je souhaite montrer les vidéos dont sont issus les sons de la base de données de Google qui constituent pour moi une partie du cerveau algorithmique du programme que j’utilise. C’est une façon de donner à voir ce qui compose sa mémoire, une manière de comprendre comment les sons issus de ces vidéos constituent son apprentissage. Les vidéos correspondant à la catégorie reconnue s’affichent aléatoirement depuis la base de données de Google que j’ai reconstituée en local et en miniature sur un disque dur externe.

Un essai vidéo l’artiste Sean Dockray qui illustre les liens entre YouTube, l'écoute automatique et la police préventive m’a beaucoup marqué lors de la réalisation de ce projet. Il écrit : “Sur YouTube, les vidéos vivent une double vie : d’un côté un divertissement pour un public humain et d’un autre comme données pour un public algorithmique et c'est l'invention continuelle de nouveaux algorithmes qui regardent de nouvelles façons, qui font d’anciennes vidéos de nouvelles. [...] Les données seront rassemblées dans des fermes de serveurs pendant des années avant d'être exploitées avec le plus de profit. [...] Les vidéos deviennent des souvenirs pour un algorithme aux politiques inconnues.”

Les vidéos que nous postons sur Youtube ont une deuxième vie qui nous échappe totalement. Ce logiciel constitue un outil critique qui me permet de mettre à jour des zones d’ombres. Je suis descendu en profondeur, jusque dans la base de données de ces logiciels, afin de les documenter, de me les approprier puis de les restituer au spectateur afin qu’il puisse les comprendre à son tour.

Fonctionnement du logiciel sur ordinateur connecté à un microphone externe et à un disque dur contenant la base de données. Le son des vidéos provenant de la base de données et projetés au mur peuvent être écoutés dans un casque.

Photo : Paul de Lanzac

Captures vidéos du logiciel fonctionnant en temps-réel.

Installation en live.

Premier test avec le logiciel de base, avant de repenser l’interface pour l’installation.