Sonoscopie d’un panacoustique

 2021  ·  Édition  ·  Podcast

Cette recherche porte sur un domaine émergent de l’informatique décrit sous le terme anglophone de Machine Listening, qui pourrait être traduit par “écoute automatique”. Après avoir appris à nos machines à voir, il s’agit désormais de leur permettre d'entendre et de donner sens aux sons de nos environnements, étendant le champ de la surveillance contemporaine.

Ce livre ne permet pas d’accéder directement à son contenu (disponible sous forme de fichier audio) mais il est une visualisation de la manière dont un programme d'écoute automatique analyse les sons et déduit des informations sur leur nature. Je me suis donc enregistrée en train de lire son contenu dans différents endroits (à mon domicile, en ville, dans un bar, dans une cathédrale…) avec un microphone enregistrant ma voix et son environnement. J’ai ensuite soumis cet enregistrement à un réseau de neurones pré-entraînés pour la reconnaissance de formes audio, accessible en open source, afin d'expérimenter l’identification automatique des environnements sonores. Ce programme customisé, traduit en texte tous les événements sonores, comme le son d’un discours, d’un tiroir qui s’ouvre et se ferme ou d’un miaulement, tout en leur attribuant un taux de reconnaissance. L’interprétation textuelle qu’il donne de l’enregistrement est l’unique composition des pages du livre.

En analysant les sons reconnus, j’ai remarqué que des biais s’y étaient glissés. Ainsi, ma voix est toujours étiquetée en tant que voix d’homme ; “Male speech”, car le programme a été entraîné sur une base de données sonores où les voix d’hommes sont majoritaires.

Le texte résultant de cette opération peut se lire de la manière suivante : l’enregistrement est découpé en blocs. Un bloc représente 10 secondes d’enregistrement. Le premier bloc est donc le résultat d’analyse des 10 premières secondes de l’enregistrement.

‘metadata’ visible sur la première ligne regroupe les métadonnées du fichier, c’est-à-dire son nom, la longueur des blocs, la taille des blocs, le taux d’échantillonnage, le nombre de blocs ainsi que les paramètres que j’ai préalablement spécifiés pour l’analyse.

‘raw_datas’, constituent la liste par blocs de tous les sons successivement reconnus dans l’enregistrement. Un bloc se formalise ainsi : [['Speech', 0.7751136], ['Music', 0.21910243], ['Inside, small room', 0.13027504], ['Male speech, man speaking', 0.11066271]], il est enclos entre crochets.

‘tags’ indique pour chacun des sons identifiés leur récurrence dans les différents blocs et leur taux de reconnaissance. Par exemple : 'Walk, footsteps': [0.15982443, 0, 0, 0, …], désigne que des bruits de pas sont reconnus à 15,98% dans le bloc 1, mais ne le sont pas au bloc 2 et 3, et ainsi de suite.


Ce projet a été exposé lors du Festival régional des arts hybrides et des cultures numériques dans le cadre des Human Tech Days pour l’exposition un Cabinet de curiosités numériques organisé par La Labomedia au 108 à Orléans du 19 juin au 23 juin 2023, 

Au Centre de Création Contemporaine (CCCOD) de Tours lors de l’exposition U.S.B #6 nous vivons à la lisière, du 24 mars au 21 mai 2023,

À l’ESAD Orléans pour l’exposition U.S.B #3 ∙ Void draw () {Carte blanche aux diplômé∙es 2022}, du 17 nov. au 01 déc. 2022.

Podcast : Sonoscopie d’un Panacoustique (2021)



Exposition un Cabinet de curiosités numériques organisé par La Labomedia pour le Festival régional des arts hybrides et des cultures numériques dans le cadre des Human Tech Days.
Du 19 au 23 juin 2023 au 108 à Orléans.

Photo : La Labomedia
Photo : Paul de Lanzac