⭡
Exhibition
un Cabinet de curiosités numériques
organized by La Labomedia for the Regional Festival of Hybrid Arts and Digital Cultures as part of the Human Tech Days. June 19-23, 2023, at Le 108 in Orléans.
My research focuses on an emerging field of computer science known as Machine Listening, which could be translated as "automatic listening". After teaching our machines to see, the goal is now to enable them to hear and make sense of the sounds in our environments, expanding the scope of contemporary surveillance.
The edition you have in your hands does not grant access to the content of my thesis (available as an audio file), but it serves as a visualization of how an automatic listening program analyzes sounds and deduces information about their nature. I recorded myself reading my thesis in various places (at home, in the city, in a bar, in a cathedral...) using a microphone that captured both my voice and the surrounding environment. I then submitted this recording to a pre-trained neural network for audio pattern recognition, available in open source, to experiment with the automatic identification of sound environments. This customized program translates all sound events into text, such as the sound of speech, a drawer opening and closing, or a meow, while assigning each a recognition rate. The textual interpretation it provides of the recording makes up the following pages.
The resulting text can be read as follows: the recording is divided into blocks. One block represents 10 seconds of recording. The first block is therefore the result of the analysis of the first 10 seconds of the recording.
‘metadata’, visible on the first line, groups the metadata of the file, which includes its name, the length of the blocks, the size of the blocks, the sampling rate, the number of blocks, as well as the parameters I specified for the analysis.
‘raw_datas’ from page [...] to [...], constitute the block-by-block list of all the sounds successively recognized in the recording. A block is formatted as follows: [['Speech', 0.7751136], ['Music', 0.21910243], ['Inside, small room', 0.13027504], ['Male speech, man speaking', 0.11066271]], enclosed in brackets.
‘tags’ indicate the recurrence of each identified sound in the different blocks and their recognition rate. For example: 'Walk, footsteps': [0.15982443, 0, 0, 0, ...], indicates that footsteps are recognized at 15.98% in block 1, but are not recognized in blocks 2 and 3, and so on.
Introduction
In the field of machine learning and artificial perception, computer vision has taken priority over auditory perception. This is partly because visual applications have more immediate uses compared to sound, but also due to a Western tradition that often privileges sight—the sense of beauty, intelligibility, and truth. My research also began in this direction when I went on a quest to evade surveillance cameras, trying to escape the eyes that never sleep, which proved to be impossible. Then I printed, read, dissected, and analyzed the terms of service of Google, Amazon, Facebook, Apple, and Microsoft, attempting to understand the nature of the agreements we enter into with these large monopolistic platforms that we use daily. In the vein of artists who investigate the hazy infrastructures that underpin our digital modes of existence, I attempt, in my own modest way, to demystify and give form to this increasingly ambient and imperceptible surveillance. Faced with the opacity created by sensors and computer code that shape our societies, I question the roles an artist can assume. Today, I am particularly interested in auditory surveillance and automatic listening, which is currently encapsulated under the anglophone term Machine Listening, which could be translated as "automatic listening". This is an emerging field of science and engineering that uses audio signal processing and machine learning to make sense of speech and the sounds of our environments, expanding the scope of contemporary surveillance. Automatic listening is far more than a novel discipline. The term first appeared in the 1990s in the context of musical computing to describe interactive music systems. It is only recently that the term has been associated with automatic listening in sound surveillance programs. Compared to cameras, this type of surveillance is much harder to detect. It can be encountered in voice assistants, urban security devices, or in the healthcare sector. The machines are listening to us. They make the acoustic realm knowable in new ways, through new actors and according to new logics, leading to a redefinition of our sonic worlds. This exploration has allowed me to trace back to the earliest listening devices, from physical body espionage to electronic and algorithmic listening.
1. Historical Background: The Rise of Panacoustics and Ubiquitous Listening
1.1 From Listening Behind Walls to Instrumental Listening: Targeted Listening
Before being facilitated by instruments, espionage relied on the bodies of spies moving and relaying information. In The Art of War, one of the oldest known military strategy treatises, dating from the 5th century BC, Chinese general Sun Tzu identified five types of spies, forming together a "magic network" which constituted for the sovereign "his most precious treasure"; these spies acted as auditory sensors deployed to eavesdrop on the enemy. During the Middle Ages, spies served the purposes of military intelligence, guiding armies to protect cities, and political intelligence, enabling the assessment of an adversary's position. In France, in 1473, Colinet Watier, servant of Master Nicole de Flainquis, uncovered a conspiracy to hand over the city of Laon to the Burgundians. He obtained his information through a hole made in the partition separating him from the conspirators: "a hole, from the bedpost, to see and hear them." The spy listened behind walls, behind windows and doors—space and architecture allowed the invisibility essential to the practice of espionage. The young Colinet gathered his information primarily through his senses, namely sight and hearing, with the aid of his body. At that time, there were no mechanical instruments available to record sound events, so the spy had to rely on memory to reveal the facts discovered and absorbed through their senses. Marcel Mauss, in his work Techniques of the Body published in 1936, stated that “the body is the first and most natural instrument of man,” and continued: "or more precisely, without speaking of instruments, the first and most natural technical object, and at the same time the technical means, of man is his body. [...] Before instrumental techniques, there is a whole set of body techniques." It seems interesting to note that hearing is a sense inclined to the exercise of authority because the word “obey” comes from the Latin ob meaning "before" and audire, "to listen", literally meaning "to lend an ear". In this sense, the feudal spy "extends the sensory organs of the prince who watches over and guides the right path," the medieval spy is a body-tool in the service of the lord, contributing to the kingdom’s continuity and the maintenance of divine order.
Peter Szendy, a French philosopher and musicologist, suggests in his book Sur écoute. Esthétique de l'espionnage (On Listening: The Aesthetics of Espionage) the structural affinity that has always existed between listening and the practice of espionage. This dual correspondence seems confirmed by etymology. The Dictionnaire de l’Académie française, in its 1st edition (1694), defines the verb escouter as "to hear attentively, to lend an ear to hear". On the other hand, its noun escoute means: "a place where one listens without being seen." Thus, listening originally existed as a matter of espionage.
(translation coming...)
En 1810, l'invention du stéthoscope par René Laennec préfigure l'écoute technicisée. Grâce à ce nouvel outil de diagnostic, le médecin peut désormais écouter l’intérieur du corps de son patient avec précision. C’est ce que Laënnec nommera l’auscultation médiate, qui désigne l’écoute à distance de l’intérieur du corps à l’aide d’un instrument, d’où l’idée de médiation. C’est avec cette redéfinition de l’écoute dans le savoir médical moderne que cette dernière revêt une forme nouvelle “médiatisée, qualifiée et technologisée”. Le stéthoscope est une technologie qui reconstruit le son comme un ensemble d’informations potentielles pour la perception et les savoirs médicaux, permettant d’étendre les capacités d’écoute des médecins. Dans le Traité de l’auscultation médiate rédigé par Laënnec, il y a un désir d’écouter les bruits inaudibles à l’oreille nue. La vérité physiologique des sons du corps se substitue au témoignage du malade et à l’expression verbale de ses symptômes. L’auscultation médiate constitue donc le premier terrain d’expérimentation des nouvelles techniques d’écoute du XIXème siècle. C’est au cours de la deuxième moitié du XIXème que de nouveaux contextes techniques amènent l’écoute à s’étendre, à travers l’apparition concomitante des nouveaux moyens de communication à distance que sont la télégraphie, la téléphonie, puis la radio, et des premiers appareils d'enregistrement sonore. Ces réseaux d’écoute se déploient cette fois bien au-delà du corps humain. Ils constituent les premières technologies de communication permettant de relier des personnes physiquement éloignées, faisant entrer le monde dans l’ère de la communication de masse.
Cette révolution des média se produit dans les années 1880 avec l’apparition du phonographe et des technologies de transmission. Le phonographe, en tant que premier appareil d’enregistrement et de retransmission sonore, permet de reproduire le son et de transporter son message aussitôt fixé. Le 6 décembre 1877, Edison en présenta un prototype, faisant suite au phonautographe d'Édouard-Léon Scott de Martinville, ce dernier ne pouvant qu’enregistrer et non restituer le son. Étymologiquement, le mot phonographe vient du grec ancien phônế, la voix et graphein, écrire, littéralement “écrire la voix”. Le phonographe permet de reproduire les sons par un procédé mécanique où les fréquences gravent un sillon sur un cylindre phonographique. Il peut enregistrer le son en temps réel pour le restituer dans une transcription exacte. Il constitue le premier média capable d’écrire et lire, stocker, enregistrer et rejouer. En 1878, Edison publie les dix applications prévues du phonographe dans la North American Review, article intitulé Phonograph and its Future. L’une d’entre-elles consistait à retenir “les derniers mots des mourants” dans laquelle se dessinait une “archive familiale”. Le phonographe permet non seulement d’enregistrer les voix mais surtout de les conserver pour l’éternité alors qu’elles ne duraient jusqu’ici que le temps d’une vibration de l’air.
Quelques années auparavant, apparaissaient les premiers réseaux de communication. Ces réseaux vont permettre de relier des personnes physiquement éloignées mais également d'intercepter leurs communications à distance, par les câbles puis par les ondes. Le télégraphe de Samuel Morse, qui permet de transmettre des signaux codés par l'intermédiaire d'impulsions électriques, voit sa première ligne financée aux États-Unis en 1844. En 1876, Graham Bell invente le téléphone qui va permettre de transmettre la voix à distance. On peut alors transformer le son en signal électrique et le transporter d’une source à une destination. En 1895, la télégraphie sans fil naît des expérimentations du physicien Guglielmo Marconi, également l’un des inventeurs de la radio, permettant l’émission de messages à distance en utilisant les ondes radioélectriques, s’affranchissant de toute barrière physique. L’explosion des télécommunications et cette nouvelle circulation mondiale du son ouvrent également de nouvelles possibilités d’interception. L’invention du télégraphe la multiplication des lignes et l’invention de la communication “sans-fil”, par ondes électromagnétiques, donnent naissance à une nouvelle forme d’espionnage, “l’espionnage électronique”. Lorsque les lignes télégraphiques ont recouvert la planète d’un bout à l’autre, la mise sur écoute des communications codées s’est massifiée, rendant possible le “wiretapping” qui est l’action d’écouter secrètement les conversations en interceptant les signaux circulant sur les câbles.
La mise sur écoute des câbles concerne principalement les services du renseignement militaire et remonte à la guerre de Sécession. Brian Hochman, chercheur en histoire culturelle des États-Unis et auteur de Eavesdropping in the Age of The Eavesdroppers; or, The Bug in the Martini Olive, constate que la mise sur écoute n’est en rien un phénomène nouveau, qu’elle “existe depuis aussi longtemps que les câbles eux-mêmes”. “La première loi de l’État contre la mise sur écoute a été écrite en 1862, ce qui signifie que les mises sur écoute télégraphiques étaient courantes dans certaines parties du pays. Les généraux de la guerre de Sécession ont même emmené avec eux des professionnels de la mise sur écoute lors des campagnes militaires.”
Aux origines, l’écoute était ciblée. L’espion, troubleur de l’ordre public, écoutait derrière les murs les secrets de ses voisins. Puis, les réseaux d’espions chevaliers se sont formés au service de sa Majesté, secondant le pouvoir. Les espions opéraient ensuite sous couverture pour le compte des puissances armées lors des guerres mondiales. Progressivement, le visage de l’espion sera associé, d’un côté aux services de renseignements, et de l’autre aux détectives privés et à l’espionnage d’entreprise. Puis viendra la surveillance par la police, les forces de l’ordre et les agents secrets. Les nouvelles technologies d’enregistrement et de communication, en se multipliant et en se perfectionnant, font désormais de chacun d’entre nous une cible potentielle d’écoute.
1.2 Écoute généralisée et indifférenciée : Internet, Big data, Objets connectés, IA ; l’écoute algorithmique
La surveillance de tout un peuple à son insu est un songe que certains ont approché. Ce projet sous-tend notamment le ‘Spionage-Ohr’, l’Oreille Espionne, une gravure représentant une architecture d’écoute secrète. C’est sur une gravure tirée du Livre IX du Musurgia Universalis, « Composition universelle de la musique », encyclopédie sur la musique écrite par le jésuite allemand Athanasius Kircher en 1650 à Rome que l’on peut trouver l’organisation de ce système d’écoute imaginé par l’auteur : deux tubes géants en forme de coquillage, cachés dans les murs d’un palais, pour que la Cour royale puisse écouter à distance ce qui se trame sur la place publique en contrebas du dispositif. Il aurait permis de percevoir “les différentes voix des animaux, les murmures cachés, les chants, les pleurs et les gémissements des hommes”. Les canaux en spirale imitent la structure du coquillage qui, faisant office de caisse de résonance, amplifie les sons qui la pénètrent. Kircher explique que l’appareil serait capable de “rendre tous les sons articulés clairement et distinctement à l'intérieur d'une pièce, quelle que soit la distance depuis l'extérieur, tout comme s'il était à côté de l'oreille, sans que personne ne puisse en suspecter son origine”. Cette gravure incarne dès le 17ème siècle ce rêve d’une technique permettant aux puissants de surveiller le peuple à son insu. Une architecture des échos qu’il nomme tantôt echotectonica, puis echotectonicum, traduit échotectonique.
Le dispositif de surveillance envisagé par Kircher n'est pas sans évoquer le panoptique que le philosophe Jeremy Bentham imagine en 1787 dans ses lettres intitulées Panopticon; or, The Inspection-House, contenant l’idée d’un nouveau principe architectural. C’est en voyant les plans d’usine dessinés par son frère Samuel Bentham, envisagés pour une surveillance et une coordination plus efficace des ouvriers, qu’il eut l'idée d'une architecture carcérale panoptique circulaire. Le dispositif fonctionne comme suit : d’une tour logée en son centre, les gardiens surveillent les détenus situés en circonférence sans que ceux-ci puissent savoir s’ils sont observés, même si les gardiens sont absents. La lumière pénètre par les cellules donnant vers l’extérieur, laissant la tour centrale du surveillant dans l’obscurité. Faisant croire à une surveillance ininterrompue, on arrive à imposer aux prisonniers une façon de se comporter et donc de s’auto-discipliner, alimentant leur paranoïa. Cette proposition utilitariste vise à produire à moindre coût en diminuant l’effectif des surveillants, un principe que Bentham imagine se déployer dans l’organisation générale de la cité pour prévenir la criminalité.. Le dispositif carcéral de Bentham a pour objectif de tout voir, mais aussi de tout ouïr, comme l’explique Peter Szendy dans son essai. Le musicologue rapporte qu’à deux reprises dans les écrits de Jeremy Bentham s’introduisent l’oreille et la voix. Cette dernière serait transmise par des tubes acoustiques de la tour centrale aux cellules et agirait comme instance de l’autorité surveillante. Cette architecture panoptique se double alors d’un dispositif acoustique que Peter Szendy qualifie de panacoustique. En grec ancien, l’utilisation du préfixe pân marque l’idée d’un tout, d’une globalité. Acoustique provient du grec ancien signifiant de l’ouïe, akoustikos, qui lui-même vient de akouein, entendre. L’idée du panacoustique descend de celle du panoptique, tout voir, tout entendre.
De son vivant, Bentham ne verra jamais s’édifier ses architectures aux yeux et aux oreilles multiformes. Ce que l’on retient du panoptique est finalement plus philosophique que carcéral en ce qu’il instaure une “pensée panoptique”. C’est ce que le philosophe Michel Foucault définira en 1975, en utilisant l’architecture panoptique comme abstraction d’un modèle de société disciplinaire dans son ouvrage Surveiller et punir. Ces architectures panoptiques et panacoustiques que Bentham et Kircher ont pensées autrefois évoquent les architectures machiniques que nous habitons à l’heure qu’il est. C’est en effet via les nouvelles techniques d’informations que l’écoute a pu s’étendre et se généraliser. Les possibilités d’enregistrements se sont déployées, on n’enregistre plus seulement les sons mais un grand nombre de données, dans des volumes qui dépassent l’entendement. Cet accroissement des informations apporte avec lui le besoin de nouvelles infrastructures capables de gérer et de traiter ces données, c’est ce qui poussera au développement de l’intelligence artificielle, et plus précisément à celui du machine learning, ou apprentissage automatique, composant les multiples strates d’une boîte noire éléphantique.
Passé un siècle de mutations sonores façonnées par les nouvelles techniques qui ont permis le développement sans précédent de l'espionnage, ce dernier, comme un champ fertile dont la terre aurait été soigneusement ameublie, voit s’immiscer les racines voraces d’un espionnage global. Nous sommes passés du coquillage phonique d’Athanasius Kircher aux sept microphones directionnels de l’enceinte connectée Amazon Echo Dot. Deux oreilles ubiquistes mènent actuellement une alliance dévoilant le visage d’un espionnage contemporain : il y a d’abord l’État, appuyé par les agences de renseignement, puis les méga-entreprises issues de la Silicon Valley et du web, reposant essentiellement sur le pouvoir algorithmique. Les deux s’accordent à l’unisson dans une vision commune du monde visant entre autres à prévenir les crimes d’un côté et modeler les comportements de l’autre. Ces deux écoutes sont jumelles et se faufilent par les mêmes tuyaux algorithmiques.
Historiquement, c’est à la fin des années 1940 qu’un glissement s’est opéré dans l’espionnage et que, s’amplifiant petit à petit et vêtu de sa forme la plus subtile, l’espionnage est devenu global et sa cible indifférenciée. C’est exactement au printemps 1941 que, pour percer le secret de la machine de chiffrement allemande Enigma, les États-Unis et le Royaume-Unis décident de coopérer en combinant leurs ressources accumulées de part et d’autre en matière de renseignement électromagnétique. En 1950, accompagnés des services de renseignement des États-Unis, de l'Angleterre, de l'Australie, du Canada et de la Nouvelle-Zélande, aussi appelés les “Five Eyes”, se bâtit le réseau Echelon, un réseau d’interception des communications radioélectriques mondial constitué de satellites artificiels et de bases d’écoutes, et qui restera inconnu pendant plus de quarante ans. En France, plus récemment, c’est la loi Renseignement adoptée le 24 juin 2015 en réponse aux attaques terroristes de 2015 à Paris, qui vient pérenniser les systèmes de surveillance étatiques. La loi renseignement permet aux services du renseignement français d’accéder aux contenus de toutes les communications passées sur son territoire ainsi qu’à leurs métadonnées. L’entièreté des communications passent au filtre d'algorithmes dont le fonctionnement nous est délibérément dissimulé. Comme pour Echelon, ce sont l’ensemble des contenus et des métadonnées des communications Internet et mobile des Français qui sont analysées et traitées. L’objectif de cette écoute généralisée est de détecter automatiquement des comportements spécifiques repérés par le programme. Le projet de la loi renseignement supposé temporaire pour répondre à une menace terroriste vient finalement s’inscrire dans le droit au 30 juillet 2021, sacralisant les pouvoirs du renseignement en France et autorisant l’utilisation des boîtes noires. La loi de 2021 avance encore d’un pas en ajoutant la surveillance automatisée de la totalité des adresses URL des sites Web consultés par les Français et dont les données seront conservées par l’ensemble des opérateurs pendant un an.
L'entrée en vigueur de cette surveillance plénière du réseau, ainsi que la quantité massive de données à analyser qu'elle nécessite, dépasse les capacités humaines, d'où le recours à l'automatisation. Il faudra attendre 2007 pour qu'émergent plusieurs programmes classés, relevant de la NSA, Agence nationale de la sécurité au département de la Défense des États-Unis, dont l’existence sera signalée le 6 juin 2013 suite aux révélations du lanceur d’alerte Edward Snowden, ex-consultant de ladite agence. On y apprend entre autres l'existence d'un programme secret au nom de code PRISM qui est plus ou moins le prolongement du système Echelon amplifié grâce aux possibilités techniques des systèmes informatiques actuels. Sur les diapositives dérobées, on découvre que les données des utilisateurs de Microsoft, Google, Yahoo!, Facebook, PalTalk, Youtube, Skype, AOL et Apple sont directement collectées via les serveurs de ces neufs plateformes colossales et transitent ensuite vers les datacenters de la NSA. Ils reçoivent les données d’e-mails, chats — vidéos, voix, photos, données stockées, transferts de dossiers, vidéoconférences, notifications d’activités — logins, détails des réseaux sociaux en ligne mais aussi des “requêtes spéciales”, ce surplus de données n’ayant plus qu’à être filtré, classé, archivé et analysé, le tout en temps réel. En fait, l’ampleur des dispositifs de la NSA excède même les hypothèses des professionnels, comme le rapporte Laurent Bloch en 2014 dans un article publié sur le site Diploweb. Selon la politologue Virginie Martin, “les data, Big data et super Big data finissent par être les chevaux de troie d’un hacking démocratique en bonne et due forme. [...] Des conglomérats souvent soutenus par des gouvernements, élus “démocratiquement”, mais qui, au regard d’intérêts communs, n’hésitent pas à s’allier avec ces énormes multinationales”, ainsi, l’écoute actuelle est à la fois le fait des États alliés aux GAFAM, les deux collaborant et utilisant des moyens similaires.
Cette automatisation fait de quiconque une cible potentielle de l’écoute, si tant est que la conversation soit jugée digne d’intérêt par les commandes du logiciel. James Parker, spécialiste du droit à l’Université de Melbourne, et Joël Stern, curateur et directeur artistique de Liquid Architecture, organisation à l'intersection de l'art contemporain et de la musique expérimentale, explorent les relations entre loi et acoustique. Ils résument parfaitement la mutation qui s’est opérée au sein de l’écoute dans Eavesdropping: A Reader, ouvrage réalisé à l’occasion de l’exposition Eavesdropping à Melbourne en 2018 :
“S'appuyant sur des plateformes d'entreprises massives et d’infrastructures privées, l'écoute gouvernementale clandestine qui nécessitait autrefois une personne réelle pour écouter peut désormais être effectuée automatiquement, en masse, avec une précision toujours croissante. Aujourd'hui, l'écoute n'est plus simplement électronique, mais algorithmique.”
Tandis qu’Internet se proposait au départ comme d’innombrables possibilités d’expressions individuelles échappant au monopole d’État exercé sur les médias d’information, ce dernier s’est largement recentralisé autour des GAFAM : Google, Apple, Facebook, Amazon et Microsoft. Les oreilles de ces entreprises, dispersées un peu partout dans nos objets les plus familiers, sondent sans doute nos pensées à l’heure actuelle. Leur visée est commerciale et s’active par le prisme de la publicité ciblée. Ce mode de surveillance est basé sur une logique de profit basée sur l'exploitation des données personnelles que Shoshana Zuboff nommera en 2018, L’Âge du capitalisme de surveillance. Il est fort probable que vous ayez en votre possession un téléphone portable, un ordinateur ou même un assistant vocal dormant dans une montre connectée, tous dotés d’un microphone. À présent, nous nous équipons nous-mêmes de ces mouchards électroniques qui se doublent d’une écoute algorithmique. Stephen Neville recours au néologisme “Eavesmining”, mot-valise combinant le concept d’écoute clandestine et d’exploration de données, en anglais eavesdropping + data mining. Ce concept caractérise une surveillance permise par l’usage combiné de microphones, de capteurs numériques, d’algorithmes de traitement du signal, de bases de données et de techniques d’exploration de données. Dans l’actuelle fouille de nos mondes sonores, chaque son devient donnée et alimente l’extraction et l’accumulation de ce mode de surveillance capitaliste, produisant des schémas de prédiction et de modification comportementale. Car en plus d’être structurellement liée à des logiques marchandes, l’écoute algorithmique est prédictive. Elle ne lit pas les lignes de la main, mais le flot de nos pensées accumulées dans chacune de nos recherches en ligne. D’après Shoshana Zuboff : “Nous voici devant de nouveaux territoires du surplus comportemental où le continent de dark data qu’est votre vie intime — vos intentions, vos motivations, ce que vous voulez dire et ce dont vous avez besoin, vos préférences et vos désirs, vos humeurs et vos émotions, votre personnalité et votre tempérament, vos vérités et vos mensonges — est étalé au grand jour pour profiter à d’autres.”. En corrélant toutes vos traces numériques sans exception, permettant de créer un profil publicitaire sur-mesure, Google et les autres vous connaissent très bien. Ils sont capables de deviner votre prochain achat surgissant sous la forme d’une publicité clinquante, étrangement fidèle à vos envies, et même d’influencer vos opinions politiques grâce à des posts ciblés sur les réseaux sociaux. Cette logique d’accumulation tend ainsi vers la recherche de certitude. “Or le moyen le plus sûr de prédire l’avenir reste de le fabriquer, en modelant le comportement des individus”. Ainsi, “Les murs qui se referment n’ont pas la forme d’une cellule de prison mais sont modelés dans la forme de nos propres corps”. La mise en place de sociétés toujours plus sécuritaires, mêlée aux avancées technologiques des moyens de communication, nous plonge aujourd’hui dans un panacoustique généralisé. Les gouvernements récoltent des données à des fins de sécurité et de contrôle ; les entreprises privées à des fins marketing, d’individualisation des offres, d’amélioration de leur gestion. Mais les entreprises privées commencent à s'intéresser à la sécurité et au contrôle, brouillant les infrastructures d’État et d’entreprise. Les écoutes étatiques et commerciales s’entremêlent dans une surveillance où l’opacité est maître mot — avènement du panacoustique moderne.
2. Comment ça fonctionne ? Le Machine Listening, nouveau champ d'exploration de l'IA
2.1 L’ère conversationnelle : l’analyse de la voix et du discours
Les agents conversationnels dotés d’une intelligence artificielle se frayent un chemin dans nos vies quotidiennes depuis les années 2010. Apple, Google et Microsoft sont les premiers à en proposer, répondant aux doux noms de Siri, Ok Google et Cortana, d’abord dans des programmes intégrés aux systèmes d’exploitation pour smartphones. C’est Amazon qui, en 2014, externalise son assistante Alexa dans une enceinte dédiée, une voie que Google et Apple emprunteront eux aussi. Ces assistants personnels à activation vocale trônent, dans une apparente inertie, sur la commode du salon. Ils sont aussi, tapis dans l’ombre, posés sur la table de chevet, planqués au fond de notre poche et même fièrement portés autour du poignet. Leurs oreilles électroniques sont constamment à l’affût de leur prénom, prêtes à déclencher leur réveil. Pour que cet éveil soit possible, le dispositif doit toujours écouter ; c’est ce qu’on appelle une fonctionnalité “always-on”, allumée en permanence, autour de laquelle s’articule un nouveau mode de surveillance auditive. Shoshana Zuboff, dans L’Âge du capitalisme de surveillance, expose l'apparente simplicité d’utilisation qui pousse les consommateurs à s’équiper de ces dispositifs :
“En conversant, nous imaginons des amitiés. Plus nous voyons le dispositif comme un confident, une nounou, une gouvernante, un système de soutien — une sorte de Mme Doubtfire désincarnée, omniprésente pour chaque utilisateur —, plus nous lui permettons de restituer de l’expérience et plus ses opérations d’approvisionnement prospèrent. La communication est la première des joies humaines; une interface de conversation sera particulièrement appréciée pour la facilité, l’absence de friction avec laquelle une simple phrase peut déclencher une action.”
N’en déplaise à Apple, nous le verrons, Siri n’est pas des confidents les plus discrets. Ces agents viennent concrétiser l’idée d’une interface naturelle entre l’homme et la machine, un dessein déjà vieux d’une cinquantaine d’années, que l’on retrouve dans la publication The Architecture Machine, Toward a More Human Environment, de Nicholas Negroponte en 1970, écrit précurseur de l’interaction homme-machine qui signalait l’importance d’une machine évolutive capable de reconnaître le contexte afin qu’elle devienne un partenaire intelligent. S’introduit alors l’idée d’une interaction vocale avec nos objets connectés sous forme d’ordres donnés à la machine, caractérisant l'avènement d’une ère conversationnelle précipitant la disparition de nos interfaces tactiles, mettant au placard claviers et souris. Notre voix devient l’intermédiaire par lequel l’interface visuelle s’efface, laissant place à des usages simplifiés qui viennent invisibiliser le fonctionnement technique réel de ces assistants, abritant eux aussi des boîtes noires que l’on peine à déchiffrer. Pourtant, derrière l’automatisation de ces interfaces existe une armée de micro-travailleurs dont le travail est de nous écouter afin d’améliorer les capacités de compréhension des assistants vocaux. Ces entreprises s’intéressent d’abord à notre voix et au discours émis.
Cette écoute diffère des pratiques de mise sur écoute électronique ou d’interception de communications radioélectriques car, contrairement à ces dernières, elle n’est pas secrète et semble volontairement adoptée par ses utilisateurs; une adoption volontaire qui, selon moi, reste à mesurer. Il réside en effet un paradoxe dans le fait d’adopter volontiers un service présenté comme une innovation presque essentielle et nécessaire, alors même que ses rouages intérieurs demeurent obscurs voire impénétrables par l’utilisateur. Je me suis moi-même fait enregistrer à mon insu à deux reprises, lorsque j’ai constaté que deux enregistrements audio de ma voix s’étaient gravés dans Mon Activité Google. Le 12 décembre 2018 à 16h41 Google a archivé deux secondes de mon environnement sonore et de ma voix. Le 4 janvier 2019 à 20h36, il m’aurait entendu prononcer le mot “team”, cette fois-ci dans un enregistrement d’une durée de sept secondes. Selon lui, ces enregistrements auraient été déclenchés par un mot clé, le fameux mot d’éveil Ok Google, commande que je n’ai pas vocalement articulée mais que l’assistant a faussement reconnu. Moi qui n’utilise pas d’assistants vocaux et essaye tant bien que mal d’échapper à leurs griffes, j’ai été prise au piège comme beaucoup d'autres car ces méga-entreprises entretiennent délibérément un flou sur leurs paramètres de confidentialité et leurs conditions générales d’utilisation. Dans ce cas de figure, je n’avais tout simplement pas décoché, dans les couloirs alambiqués qu’impose Google, l’une des nombreuses cases automatiquement pré-cochées par le service dès l’inscription. C’est un récit que rapportent également deux anciens transcripteurs français qui ont travaillé respectivement pour le compte d’Apple et de Microsoft et qui ont décidé d’alerter les médias sur ces pratiques de mise sur écoute systématique, assurant que bon nombre des enregistrements étaient déclenchés par erreur. Ces travailleurs écoutent les enregistrements un par un, comme ceux de ma voix qui se sont retrouvés là par imprudence, et corrigent les erreurs de conjugaison, d’orthographe et de compréhension qu’auraient pu commettre les assistants, traitant un quota allant de 120 à 170 itérations par heure. En 2019, Thomas Le Bonniec, transcripteur, alerte sur les pratiques d’écoute de masse générées par Siri, l’assistant vocal d’Apple. En plus de procéder à la transcription des enregistrements, Thomas Le Bonniec devait également récupérer les données susceptibles d’intéresser Apple au sein des enregistrements, comme des noms de marque, des musiques, des lieux, des contacts. Le tout formant un excédent de données utilisé pour enrichir le profil publicitaire de la personne écoutée.
Ces révélations suscitent une méfiance grandissante du public qui développe une réticence envers l'usage d’assistants vocaux. À l’occasion des dix ans de Siri, une enquête réalisée par La Poste et publiée dans le journal Le Monde en 2021 a sondé 2500 Français sur leur utilisation de ces assistants à activation vocale. Il en ressort que 52% des Français majeurs utilisent un assistant vocal, un chiffre surestimé selon Le Monde car cette enquête en ligne n’a pas pu interroger les Français qui n’utilisent pas ou n’ont pas accès à Internet, et ils représentent 15% de la population. Du reste, seul un tiers des personnes équipées d’un assistant y ont recours au moins une fois par jour, pour un usage très basique et se faisant essentiellement à la maison. Les usages tendent encore à régresser, principalement en raison d’une mauvaise compréhension par les assistants, trop fréquente et frustrante pour les utilisateurs, accompagnée de la peur d’une fuite de données personnelles. On ne sait pas au juste s’ils écoutent, finalement, plus que la voix et son contenu.
2.2 L’écoute actuelle : analyse computationnelle des scènes et environnements sonores
L’écoute des assistants vocaux est continuelle et implique donc plus que la simple écoute sémantique des flux linguistiques. Stephen Neville, musicien et doctorant à l’Université de York au département communication et culture, argumente cet aspect dans sa recherche Eavesmining: A Critical Audit of the Amazon Echo and Alexa Conditions of Use, où il affirme que ces machines conversationnelles “sur-entendent” la voix humaine liée à un corps identifiable. Par “sur-entendre”, l’auteur veut signifier que ces agents conversationnels ne font pas qu’analyser le discours mais sont capables de faire dire aux enregistrements plus que les mots prononcés. Elles “sur-entendent”, par exemple, la biométrie vocale traduisant l’âge, l’accent et le genre de la personne qui parle. Lors de la conférence virtuelle Machine Listening : Listening With The Pandemic, le 4 octobre 2020, organisée par le festival Unsound et Liquid Architecture, une organisation australienne rassemblant des artistes travaillant avec le son et l’écoute, Sean Dockray esquisse les contours d’une forme de surveillance qui s’accélère et dont la pandémie amplifie les effets. L’artiste met au point à travers son projet Listening to the diagnostic ear une visualisation d’enregistrements sonores de toux à partir d’un ensemble de données recueillies auprès de personnes volontaires par la startup israélienne Voca.ai, dans le but de diagnostiquer le coronavirus à partir d’un simple enregistrement de la toux. Or, la toux, en apparence sans signification, peut traduire bien plus que l’hypothétique présence d’un virus. Mladen Dolar, psychanalyste slovène, propose une sémiotique de la toux que Sean Dockray nous partage, les accompagnant de toussotements révélateurs. Ainsi, une toux peut faire savoir à une salle pleine que j’attends qu’elle m’écoute, elle peut annoncer ma présence, exprimer un doute, une réticence ou venir adoucir la tension d’un silence.
Mais ces machines sont aussi capables de surprendre des états émotionnels, psychologiques ou pathologiques. Lorsqu’elles sont invitées dans notre routine quotidienne, elles décèlent les rythmes du corps dans son environnement domestique en nous aidant à mettre en place des alarmes, minuteries, rappels et “routines”. Dès lors, la voix n’est plus seulement un flux de paroles mais “un médium situé entre le son et les données”. Notre voix devient une interface digitale, une interaction technique modifiant notre relation au son. Nos environnements sonores ne parlent pas mais restent néanmoins audibles par la machine, laissant paraître les rythmes du quotidien, nos habitudes et plus encore. L’écoute par ordinateur a en effet d’abord ciblé la compréhension de la voix. Lawrence Abu Hamdan, artiste Libanais explorant la dimension politique et juridique de l’écoute, explique dans Aural Contract : Forensic Listening and the Reorganization of the Speaking-subject, que la voix relève autant du langage parlé que du langage corporel, à la fois instrument verbal et non verbal. Elle contient des éléments paralinguistiques : « La voix est un produit corporel qui contient son propre excès. Cet excès réside non dans ses fonctions linguistiques, dans ce qui est dit, mais dans ses effets non verbaux, la hauteur de la voix, l’accent, les intonations, les inflexions et les empêchements.» écrit-il à propos des témoignages des prévenus. Depuis que les techniques d’enregistrement existent, on essaye d’en savoir plus que les mots prononcés. L'instrument qui incarne le mieux ce fantasme d'une machine capable de voir au-delà du discours est sans doute le polygraphe, autre nom donné au détecteur de mensonge, inventé dans les années 50. Le dispositif très contesté, composé d'un ensemble d'appareils qui mesurent les réactions psychophysiologiques d'un individu, prétend être en mesure de déterminer lorsqu'un individu est interrogé, s'il dit la vérité ou s'il ment. Malgré le discrédit dont il fait régulièrement l'objet, le polygraphe ne cesse d'être réinventé sous de nouveaux habits. Il ré-émerge aujourd'hui sous la forme de programmes informatiques analysant prétendument le "stress vocal", s'ajoutant à la longue liste des machines écoutantes.
Aujourd’hui, cette écoute dépasse le seul champ de la voix et du discours, abordant de nouveaux domaines. La machine s’attelle à reconnaître les environnements sonores. Ainsi, les scientifiques se servent de la reconnaissance d’environnements sonores pour analyser par exemple, les chants d’oiseaux, la bioacoustique des forêts ou la biodiversité des fonds océaniques, pour analyser les évolutions des paysages sonores. C’est l’ensemble de la planète qui devient un observatoire acoustique au service de problématiques environnementales. De même, un intérêt croissant émerge pour l'étude des environnements sonores habités par l'homme. Actuellement, cette nouvelle écoute machinique scrute nos environnements soniques afin d’être en capacité d’y déceler du sens. Jusqu’ici, un ordinateur, un smartphone ou une enceinte connectée ne faisaient pas la différence entre le miaulement d’un chat et une porte qui claque. Mais ces machines commencent depuis quelques années à reconnaître de plus en plus finement les différents sons qui nous entourent, car nous sommes en train de leur apprendre à entendre à travers la compréhension du contexte sonore. Les activités humaines s’accompagnent d’événements sonores caractéristiques, représentant une mine d’or d’informations dites contextuelles. Les machines entraînées peuvent dès lors y reconnaître des événements en analysant la scène auditive. Un des débouchés de ces nouveaux dispositifs réside dans la surveillance acoustique. Si un son de bris de verre à votre domicile est reconnu par la machine alors que vous êtes absent, la machine pourra déterminer qu’il s’agit d’une intrusion et vous avertir en temps réel : déclenchement, identification, alerte.
Ces automates obéissants écoutent et identifient nos émotions, déterminent notre âge, genre et origine ethnique, détectent l’agressivité dans notre voix, y diagnostiquent la dépression, la psychose, le covid, captent les rires, la présence d’un cri ou d’un mensonge. Elles reconnaissent le bruit qu’émet un coup de feu ou bien une alarme, que ce soit celle d’un téléphone, d’un réveil, d’une voiture, d’une sirène, d’une sonnette, d’un buzzer, d’un détecteur de fumée, d’un klaxon d’une voiture ou d’un camion, de la sonnette du vélo, d’une corne de brume ou d'un sifflet ; ou encore, le bruit d'un chien qui aboie, d’un invité qui frappe à la porte, le bruissement d’une foule, de bavardages, le son d’un placard qui s’ouvre et se ferme, des casseroles qui s’entrechoquent, du sèche-cheveux. Et cela à partir d’un simple clic, ploc, tintement, grondement, zing, gargouillis, hum, boing, d’un whoosh, swoosh, swish.
Que ce soit dans l’analyse de la voix, de la toux, ou de nos atmosphères sonores, les indices que contient le son recèlent des informations allant au-delà de ce qui est explicitement dit, suggéré ou entendu et ces nouveaux systèmes d’écoute permettent d’en faire une analyse bien plus large et systématique.
2.3 Machine learning et training dataset : comment fonctionne le machine listening
Les invités sont arrivés, on entend le chien qui aboie, le dîner est prêt. Bienvenue dans la maison intelligente. Dans cette chaumière connectée, nos oreilles ne nous servent plus à grand-chose. Pourtant, la société britannique Audio Analytic propose “d'adopter un meilleur sens de l'ouïe”, de “créer des expériences humaines exceptionnelles grâce à un plus grand sens de l’audition”, et même ”d’améliorer et d’étendre notre audition dans le présent et d’anticiper ce dont nous avons besoin dans un avenir très proche”. Leur communication vante l’extension de nos capacités auditives alors même que les machines écoutent à notre place.
Avec l’utilisation massive d’Internet, nous laissons derrière nous un volume de données numériques insaisissable pour l’esprit humain. Considérant l'amélioration des infrastructures et des puissances de calcul, les machines deviennent capables d’explorer plus efficacement ces énormes quantités de données qui permettent d’alimenter différents systèmes d’intelligence artificielle. Ces dernières années, le développement du “deep learning”, système d’apprentissage basé sur des réseaux de neurone profonds, est à l’origine de performances spectaculaires, notamment dans le domaine de la reconnaissance d'images.
Cette technologie s’inspire de la capacité des êtres vivants à apprendre par l’exemple. Les réseaux de neurones artificiels sont des algorithmes avec un grand nombre de paramètres (de l’ordre de plusieurs millions) que l’on entraîne sur un nombre conséquent d’exemples choisis et annotés par des humains. On les appelle des jeux de données d’entraînement (training data set) . L’apprentissage automatique, dit “supervisé”, consiste à présenter à l’algorithme des “motifs”, comme par exemple des images annoté “chat” d’une part et des images annotées “ chien” d’autre part. Nourri par ces exemples, le programme va progressivement adapter les paramètres de l’algorithme jusqu’à être capable de distinguer un chien d’un chat. On notera qu’il ne donne pas une réponse binaire, mais une probabilité d’appartenance à chaque entrée inconnue.
Jusqu’ici, l’intelligence artificielle intervenait principalement dans les domaines de la vision par ordinateur et la reconnaissance vocale. En revanche, les sons ainsi que les environnements sonores restaient un domaine peu exploré, en raison de la complexité de mettre en place des bases de données audio, qui soient d'une quantité et d'une qualité satisfaisante, mais aussi du manque de perspective commerciale.
De nouveaux acteurs sont en train d'émerger, conscients du potentiel de ces nouveaux outils de reconnaissance sonore, dans un but aujourd’hui majoritairement commercial, voyant son déploiement dans la reconnaissance d’événements sonores, l’analyse d’objets audio et l’analyse de scènes acoustiques. Dans l’analyse de la scène acoustique, l’algorithme va par exemple pouvoir reconnaître l’environnement sonore de la maison, d’un parc, d’un supermarché, d’un café, d’un centre-ville… Selon l’entreprise sud-coréenne Cochl, spécialisée dans la création de systèmes d’intelligence artificielle de reconnaissance sonore, il faut au moins 10 secondes d’enregistrement pour qu’une scène acoustique puisse être reconnue. Couplée à la détection d’événements sonores, le modèle entraîné peut identifier des cris, des bris de verre, des bruits de pas, de l’eau qui bout, un éternuement… Pour que la machine puisse reconnaître ces sons, il lui faut des quantités d’exemples labellisés puis catégorisés dans des jeux de données. Pour catégoriser les différents sons, des enregistrements sonores représentatifs de ces derniers sont collectés puis étiquetés à la main. Par exemple, pour une classe d’extraits sonores représentant le bruit de la cuisson d’aliments dans l’huile, l’étiquette appliquée va être le terme “Frire (nourriture)”, ainsi la machine aura une représentation plus ou moins diversifiée de sons de friture et sera en capacité de le reconnaître dans un environnement. La machine ne reconnaît en réalité pas le son en lui-même. Comme donnée d’entrée, on va donner au réseau neuronal artificiel le spectrogramme, qui est la représentation graphique de la décomposition spectrale de la fréquence du son sur une durée, et non le fichier audio.
Il existe deux moyens d’élaborer des ensembles de données : soit en collectionnant des enregistrements sonores existants en ligne, soit en créant ses propres enregistrements.
Pour la société Audio Analytic, les données sonores sont collectées à l’endroit où l’événement sonore a lieu, ou enregistrées dans une chambre anéchoïque, agissant comme un fond vert pour l’audio, en supprimant tout écho grâce à ses parois qui absorbent les ondes sonores. Cette société est au cœur de l’installation The City Of Broken Windows, de l’artiste et réalisatrice Hito Steyerl réalisée en 2018. L’artiste nous entraîne dans le processus de prises de son de l’entreprise. Les tintements des bris de verres s’accumulent au-dessus des voix des employés enthousiastes, narrant pour certains l’apparente étrangeté de leur travail, et pour d’autres l’importance de la tâche. Nous les observons, concernés, en train de fracasser des vitres à grands coups de maillets. Dans cet immense hangar, l’écho des bris de verre carillonnent, se heurtant au béton froid qui recouvre l’espace. La prise de vue révèle un attirail électronique où s’agencent quatre microphones, une dizaine de disques durs, un sonomètre et des fils emmêlés. Les employés sont en train de récolter ces sons qui seront utilisés afin d’entraîner leur algorithme de reconnaissance sonore, destiné à s’intégrer à un appareil de sécurité qui pourra alerter la police après avoir détecté le son des bris de verre. L’entreprise a créé un pipeline de données bien spécifique. Les sons sont d’abord collectés puis labellisés et contenus dans un data set audio nommé Alexandria comprenant plus de 30 millions d’enregistrements étiquetés au sein de 1000 catégories. Apparaît ensuite AuditoryNET, le réseau neuronal profond de reconnaissance sonore qui est entraîné, évalué puis compressé. Le programme est ensuite déployé sous le nom ai3 et ai3-nano, pour les appareils sans fil, qui est une plateforme logicielle intégrable dans plusieurs produits tels que les enceintes connectées, les écouteurs intelligents, les caméras et les smartphones. Les enceintes connectées peuvent alors vous proposer d’ajouter des pastilles pour la gorge sur votre liste de courses si elles vous entendent tousser ; les écouteurs intelligents ajustent le son de votre musique s’ils entendent que vous vous engagez dans une conversation ; les caméras filment les bruits suspects ; les smartphones, enfin, adaptent la sonnerie et le volume de vos notifications en fonction de l’environnement sonore dans lequel vous êtes. A-t-on réellement besoin d’un assistant virtuel pour écrire notre liste de courses ? Comme les assistants vocaux, le logiciel se propose sous l’étiquette always-on, une fonctionnalité qui nous pose toujours les mêmes problématiques — à savoir : est-ce que les sons sont effectivement enregistrés en permanence, sont-ils stockés indéfiniment dans des fermes de serveurs, mais aussi quel est l’impact de cette fonction sur notre supposée vie privée. De même, ces assistants vocaux engendrent des transformations prenant place dans nos environnements matériels et sonores. La société Audio Analytic présente cinq cas d’utilisation de son logiciel : Aider à entendre (si je suis sourd ou malentendant), Améliorer ce que j’entends (car mon environnement est difficile), Anticiper mes besoins depuis ce qui est entendu (car je suis occupé à autre chose), Étendre ce que je peux entendre (car je ne suis pas présent), Se souvenir de ce que j’ai entendu (car mes souvenirs sont précieux). Les exemples de ces différentes applications confirment que le logiciel se déploie dans les domaines de l’assistance à la personne, l’industrie, la maison intelligente, la sécurité et le divertissement. Le son, autrefois cantonné à son état de transmission, d’enregistrement puis de manipulation, est aujourd’hui analysé et diagnostiqué. Ces techniques constituent un domaine émergent de savoir-pouvoir, d’extraction de données, d’accumulation de capital, d’automatisation et de contrôle.
L’entreprise développe une “utopie de la sécurité absolue, [où] la domotique entend répondre aux instructions langagières ordonnées par les bris de verre”. La première application commerciale de la reconnaissance d’environnement sonore semble se trouver dans les domaines de la sécurité et de la surveillance. Ainsi, les premières vidéos publiées sur YouTube par Audio Analytic ne concernent principalement que la détection d’alarmes et les bruits provoqués par les cambriolages, comme les bris de verre. La société affirme également détenir le pouvoir de prédire l’avenir. Son logiciel, capable de sentir l’agressivité grimper dans un discours, peut intervenir avant même qu’un crime soit commis, un peu comme dans la nouvelle de SF The Minority Report. Ce principe, couplé aux promesses prédictives de l’IA, suggère qu’il est possible de changer le futur. Hito Steyerl questionne à travers son œuvre l’emprise de ces technologies émergentes et la façon dont ces dernières redessinent l’environnement urbain. Quelle est cette chose qui écoute, et qu’écoute-t-elle vraiment ?
Une deuxième approche de collecte sonore consiste à récupérer des sons existants en ligne. C'est le cas de la base de données AudioSet Ontology de Google, qui utilise l'immense réservoir de vidéos YouTube, propriété de Google. Sean Dockray dans son essai Learning From YouTube, commente le cas de Google qui s’est, sans grande surprise, intéressé à la reconnaissance sonore, potentiellement dès 2006 après avoir racheté la plateforme YouTube l’année suivant sa création. En 2017, Google met au point AudioSet Ontology, une base de données en ligne regroupant 2 084 320 extraits d’événements sonores correspondant à 5800 heures d’audio, downloadés depuis des vidéos YouTube hiérarchisées et rangées dans 527 catégories de sons. Cette catégorisation aspire à stimuler le développement des algorithmes associés aux machines écoutantes. On peut y trouver la catégorie “Sons humains” qui regroupe les sons produits par la voix, les sons respiratoires, les battements cardiaques… À titre d’exemple, pour les éternuements, on peut découvrir 1200 extraits. La catégorie “Sons à source ambiguë” réunit des sons d’impacts, de surface, et même de silence. On trouve ensuite “Animaux”, “Musique”, “Sons naturels”, “Environnement et bruit de fond”. Quant à la catégorie “Sons des choses”, on déniche les sons de véhicules, alarmes, sons domestiques… La sous-catégorie “Mécanismes” provenant de cet ensemble contient 1785 extraits annotés auxquels s’ajoutent : cliquetis (700), horloge (735), engrenages (616), poulies (152), machine à coudre (1867), ventilateur mécanique (827), climatisation (410), caisse enregistreuse (366), imprimante (3383), caméra (429). Les exemples sont abondants. Les extraits vidéos étant sélectionnés aléatoirement, Sean Dockray souligne la forte probabilité que les créateurs de ces contenus audiovisuels n’aient pas connaissance du fait que leurs vidéos soient utilisées à des fins d’entraînement algorithmique. “Sur YouTube, les vidéos vivent une double vie en tant que divertissement pour un public humain et en tant que donnée pour une audience algorithmique et c’est l’invention continuelle de nouveaux algorithmes qui regardent de nouvelles manières faisant d’anciennes vidéos des nouvelles.”, ainsi, les données scellées dans les 500 heures de vidéos uploadées par heure à la date du 14 février 2020 sur la plateforme sont rassemblées dans des fermes de serveurs, attendant sagement une exploitation profitable et leur temps d’archivage apparaît infini. Cet enregistrement restera t-il gravé dans les mémoires artificielles des algorithmes ? Les infimes inflexions de ma voix seront-elles étudiées point par point ? Et mes environnements, seront-ils minutieusement déchiffrés, dépiauter, fouillés, scrutés ? Les vidéos YouTube deviennent “des souvenirs pour algorithme” et Google “refaçonne le passé avec ses machinations d’entreprise et l’avenir grâce aux capacités prédictives de son IA.”
Comme tout algorithme, celui des machines d’écoute est lui aussi sujet aux biais. La reconnaissance d’image a mis en avant de nombreux biais scandaleux comme l’exemple de l’algorithme de Google en 2015 qui avait associé dans son moteur de recherche le mot “gorilles” à la photo d’un couple afro-américain, par manque de données où figurent des personnes à la peau foncée. Des biais peuvent tout à fait se glisser dans l’interprétation machinique des sons. Ces derniers se trouvent généralement au sein même des jeux de données et ne se manifestent souvent qu’après le déploiement commercial des algorithmes. Je peux déjà affirmer qu’au moment où je lis ce texte, il y a de fortes chances pour que le programme ayant analysé mon fichier audio étiquette parfois ma voix en tant que voix d’homme [Male speech], car j’ai une voix plutôt grave. Cette erreur est tout simplement due au fait que l’algorithme a été entraîné avec un plus grand nombre de voix masculines que de voix féminines et est donc plus apte à catégoriser une voix grave comme étant celle d’un homme. Dans la ressource évolutive en ligne Machine Listening, exposed fondée par l’artiste Sean Dockray, le juriste James Parker et le conversateur Joël Stern, il est suggéré que l’écoute machinique étant entraînée sur des mondes auditifs humains, cette dernière encode en elle-même “les écoutes normatives, ainsi qu’une gamme d’artefacts arbitraires provenant des ensembles de données [...]”, le tout restant fondamentalement opaque.
Depuis la vidéo-documentaire d’Hito Steyerl, la société Audio Analytic a fait du chemin. Il n’est plus seulement question de sécurité mais de technologies centrées sur l’humain, ancrées dans une nouvelle ère d’expériences humaines. Pour une expérience… exceptionnelle. L’idée essentielle, telle qu’introduite par le métaverse Zuckerberien, est de faire que le numérique et le réel forment une symbiose idyllique. Pour approcher ce songe au plus près, Audio Analytic s’associe avec Qualcomm, entreprise travaillant dans le domaine des technologies mobiles, intégrant sa plateforme ai3-nano dans les smartphones. La finalité étant d’envoyer des notifications lorsqu’un bruit “anormal” est entendu par la machine. Le logiciel est aussi en capacité de tagger les sons dans la vidéothèque afin de retrouver plus rapidement la fameuse vidéo de votre moitié qui ronfle en cherchant “ronflements”, ou que, lorsque vous vous filmez en “grouignant” un filtre tête de cochon apparaisse. Mais aussi pour que, dans un bar, votre smartphone sonne et vibre bruyamment afin que vous ne loupiez pas cet appel, puis qu’il fasse l’inverse à la bibliothèque. Tel l’espion opérant tapis dans l’ombre, ai3-nano écoute sournoisement toutes nos activités, comme la société le dit si bien sur son site “les sons sont des indicateurs d'activité très utiles”. Aujourd’hui, Audio Analytic imagine déployer son logiciel dans une gamme d’appareils grand public très variés, essentiellement dans l’internet des objets. Demain, une ampoule ou un thermostat intelligent dissimulant un capteur audio m’écoutera préparer le repas; ou discuter politique avec un ami.
3. Révéler les infrastructures
3.1 Critical infrastructure, Critical engineering
Nous sommes en 2004, j’ai 8 ans, et la quatrième saison de la Star Academy bat son plein. Pour Noël cette année-là, on m’offre un tapis de danse électronique, produit dérivé de l’émission phare. Un samedi après-midi, dans ma chambre, je me décide à enflammer la piste de danse sur mon super tapis. Mais quelque chose cloche. Pas de musique, des grésillements, ça crépite. J’appuie sur tous les boutons : on/off, puis encore on/off, je fais glisser les boutons Mode apprentissage/Mode libre, j’enlève les quatres grosses piles LR14, je les remets, volume max… Soudain, j’entends une voix familière sortir du haut parleur. Je me dis aussitôt qu’un revenant essaye de me contacter depuis l’au-delà à travers les ondes électromagnétiques du tapis maudit. Puis je comprends qu’en réalité, le tapis capte la conversation téléphonique entre ma mère et son amie, passant sur la ligne fixe de l’appartement. Il me permet alors d’écouter distinctement les deux voix parcourant le combiné. Mon tapis chorégraphique devient un appareil d’espionnage haute technologie. Dès que la sonnerie du téléphone retentit, je m'empresse d’allumer le tapis décidément très sensible aux perturbations électromagnétiques, afin d’intercepter chaque conversation dans le plus grand des secrets. J’ai pû espionner clandestinement bon nombre d’appels avant que la manœuvre ne soit finalement découverte. Je n’ai jamais vraiment compris comment ce dysfonctionnement avait pu se produire. Pour moi, à 8 ans, ce bug relevait de la magie et du surnaturel. Les infrastructures machiniques, électroniques, virtuelles et algorithmiques qui nous entourent aujourd’hui sont tout aussi occultes. Des designers y simplifient les interfaces, cachant les mécanismes sous-jacents derrière des clics, derrière des commandes vocales, des gestuelles tactiles.
Pour Bani Brusadin, curateur et chercheur, explorant par des méthodologies artistiques les questions politiques soulevées par la société en réseau, exprime dans The Fog of Systems que : “Décourager la curiosité entraîne un effet collatéral gênant : nous déléguons nos responsabilités en tant que personnes, citoyens ou société aux systèmes et nous acceptons que ce qu'ils nous donnent en retour soit de la « magie ».” Mon projet s'inscrit dans le cadre d’un mouvement artistique et universitaire né dans les années 2000 qui explore les infrastructures d’une manière critique afin de les dévoiler. Comment révéler ce qui n’est habituellement pas montré, ce qui est d’une obscurité angoissante, ce qui est difficilement compréhensible pour l’esprit humain ? Selon Bani Brusadin, ces systèmes se bâtissent autour de luttes de pouvoir, de changements politiques et d’accords géopolitiques. Qui contrôle notre infrastructure ? Pourquoi certaines technologies sont-elles l'apanage du pouvoir ? Cette pratique artistique critique à laquelle j’aspire à le pouvoir de démystifier ces outils. Lorsque l’artiste explore, tord et déforme ces réseaux dans tous les sens, les intentions cachées de ces systèmes, induites par certains designers, concepteurs, architectes et programmeurs, émergent. Quand les plateformes s’obscurcissent et se centralisent, les artistes n’ont d’autre choix que de procéder au “reverse-engineering” (rétro-ingénierie), qui est un des moyens les plus efficaces pour comprendre leur fonctionnement matériel intrinsèque. Dans The Critical Engineering Manifesto, proposé par les artistes Julian Oliver, Gordan Savičić et Danja Vasiliev, qui encouragent les artistes, à travers leur travail, à manipuler les technologies dans une intersection se trouvant entre art et hacking, le dernier point de leur manifeste suggère ceci : “10. L’ingénieur critique considère l’utilisation de la vulnérabilité d’un système comme la forme la plus souhaitable de dénonciation.”, ainsi l’ingénieur critique, dans sa position militante, espère dénicher une conception défectueuse ou accidentelle, exploiter un bug qui servira à dévoiler au public le fonctionnement des ces boîtes noires.
Les artistes Julian Oliver et Danja Vasiliev, suite aux révélation d’Edward Snowden au sujet du programme PRISM, ont ainsi développé en quarante-huit heures le projet PRISM : The Beacon Frame lors du hackathon “Going Dark” au Art Hack Day qui s’est déroulé à Berlin en 2013. L’année suivante, ils étoffent le projet et l'exposent à la Transmediale, festival berlinois interrogeant, lors de cette édition, les relations entre high-tech, déchets électroniques, entreprises du Big data et programmes de surveillance de masse. Équipé d’une valise militaire style IMSI Catcher contenant un ordinateur sous Linux, un prisme en verre tourne sur lui-même lorsque l’ordinateur reçoit les demandes de connexions des appareils qui passent à proximité. Quand un périphérique se connecte, le prisme révèle “les messages de protocole, des données telles que le nom d'utilisateur, le nom d'hôte, l'adresse IP” qui ont été interceptés par le dispositif puis les affiche publiquement en temps réel. Ça, c’était la forme initiale de l'œuvre avant qu’elle ne se voit désactivée sous la menace d’une dénonciation à la Police Fédérale Allemande. Car dès qu’un terminal était intercepté, son détendeur recevait un SMS factice plutôt inquiétant tel que : “Bienvenue sur votre nouveau réseau partenaire de la NSA”. Un canular qui n’a pas fait l'unanimité puisque des visiteurs ont décidé de porter plainte. Pour Olof Mathe, co-commissaire de l’événement, cette censure ne fait que réarticuler les questions soulevées par l’œuvre en exposant au grand jour les méthodes de la NSA et en confrontant matériellement les visiteurs à la surveillance habituellement opaque dont ils font l’objet. On se rend compte que ces sujets crispent toujours davantage, d’où l’urgence d'y sensibiliser le public de manière intelligible.
3.2 Comment les machines écoutent : différences entre l’écoute humaine et l’écoute machinique
Au sein de ma recherche, j’élabore une approche sensible qui me permet d’aborder l’écoute machinique avec un regard neuf. Après avoir pris connaissance de l’historique et de l’évolution des machines d’écoute, de leur rôle dans l’avènement du panacoustique généralisé et de leur fonctionnement matériel, je me suis intéressée à ce qui faisait la spécificité de l’écoute humaine face à celle de la machine.
Dans son ouvrage Le Son paru en 1998, Michel Chion, compositeur de musique concrète, rédige une enquête du sonore depuis laquelle j’organise les lignes qui suivent. Dans l'Ontogenèse de l’audition il définit le son au sens physique, comme une onde longitudinale qui suite à la vibration mécanique d’un fluide qui se déforme, se répand dans un milieu propagateur de manière circulaire ou sphérique, à l’image d’un caillou tombé dans l’eau. L’oreille, organe nous servant à capter le son, est en quelque sorte constituée d’un labyrinthe où les ondes sonores se faufilent via un itinéraire bien précis. Pour qu’ils soient entendus, les sons devront être convertis en vibrations solidiennes et liquides, puis codés par l’activité électrique du système nerveux. Lorsque l’onde sonore atteint la forme hélicoïdale de la cochlée, la même forme que celle du sillon gravé sur le cylindre phonographique, elle permet de transformer le signal de bruit mécanique en signal électrique. C’est là que le son transformé en signal électrique arrive alors jusqu'aux aires auditives du cerveau. L’oreille perçoit, avec de grosses variations d’un individu à l’autre, des niveaux d'intensité acoustique compris entre 0 et 120 dB.
S’agissant de la conceptualisation de l’écoute humaine, Pierre Schaeffer, l'un des pères de la radiophonie expérimentale et de la musique concrète, est le premier à avoir donné un statut théorique au son comme objet de perception dans son Traité des objets musicaux publié en 1966. Il propose de formaliser quatre écoutes : écouter, ouïr, entendre et comprendre. Schaeffer nomme écoute causale le fait d’écouter, qui désigne une recherche d’indices nous permettant de connaître la cause du son entendu. « “Écouter” se rapporte à notre manière d’appréhender un son comme un résultat, comme causé par quelque chose ; le son s’identifie alors à un événement ». Ouïr, c’est lorsque l’on perçoit le son sans intention d’écoute, de manière passive. Pour entendre, il s’agit de porter attention à l’expression sonore, qui renvoie au concept schaefferien d’écoute réduite, dont Michel Chion donne l’explication suivante : « L’écoute réduite, telle que l’auteur du Traité des objets musicaux la pose, est donc celle qui fait volontairement et artificiellement abstraction de la cause et du sens (et nous ajoutons : de l’effet), pour s’intéresser au son considéré pour lui-même, dans ses qualités sensibles non seulement de hauteur et rythme, mais aussi de grain, matière, forme, masse et volume. […]. Par rapport aux autres écoutes, l’écoute réduite est celle qui prend le son, qu’il soit verbal, "musical" ou réaliste, comme un objet d’observation en lui-même, au lieu de le traverser en visant à travers lui autre chose. Activité forcément volontaire et culturelle – rien dans la vie ni même dans la plupart des formes d’art existantes ne nous y engage – […] ». Enfin, comprendre, c’est la saisie du sens, ce que Chion nomme l’écoute sémantique et qui entre en jeu lorsque le signal sonore est codé, comme le langage, et qu’il faut décoder ce signal pour atteindre le message. Ainsi, nous avons différentes façons d’être attentifs aux sons, nous avons, dans une certaine mesure, la capacité d’obstruer ceux qui nous parasitent pour focaliser notre écoute. Mais, il nous est impossible de tout entendre en raison du caractère fugitif de la plupart des sons. À l’inverse, le phonographe doté de son oreille machinique enregistre tout par défaut, même ce que l’on omet d’entendre comme l’énonce Friedrich Kittler : “Le phonographe n’entend précisément pas comme les oreilles qui sont dressées à ne filtrer des bruits que des voix, des mots et des sons : il répertorie des événements acoustiques en tant que tels.” La machine qui écoute ne fait pas le tri, elle est parée d’une écoute dite opérationnelle atteignant des objectifs recherchés et délimités. Elle n’écoute pas pour comprendre mais pour effectuer une opération : elle diagnostique, identifie, reconnaît, déclenche. James Parker, lors de la conférence en ligne Machine Listening : Unnatural Language Processing, le 17 octobre 2021, parle de deux modes d’écoute irréconciliables :une imprécision humaine contre une précision inhumaine : « Human imprecision against inhuman precision ». Là où chacun d’entre-nous développe des écoutes causales spécialisées et raffinées en fonction de ses compétences et de sa curiosité, la machine affine à son tour, par apprentissage profond, les champs d’application sonore qu’elle va investir. Elle n’est malgré tout pas capable, contrairement à nous, d’une écoute empathique. Là où nous regardons et écoutons, la machine, elle, détecte et enregistre. Contrairement aux machines, notre ouïe a l’avantage de s’être modelée avec précision à nos environnements sonores depuis plusieurs millions d’années. L’ouïe était en effet bien différente chez les premiers homininés vivant dans les savanes, ils avaient une sensibilité aux fréquences plus élevée que nous car les espaces qu’ils habitaient étaient différents des nôtres. La machine, alors qu’elle habite les mêmes environnements que nous, a des capacités d’écoute différentes.
Face à notre écoute anthropique se façonne une écoute machinique qui habite chaque jour davantage nos expériences et nos environnements sonores. Tandis que le phonographe inscrit la fréquence de l’onde sonore, les machines d’analyse auditive computationnelle analysent le son grâce à l’entraînement de leurs réseaux de neurones artificiels. Il est encore difficile d’obtenir des informations intelligibles et concises sur le fonctionnement de l’audition computationnelle car les publications scientifiques sont écrites dans un jargon très spécifique. Pour me rendre la tâche plus aisée, je me suis rendue sur le réseau communautaire Reddit, dans le subreddit “Futurology”, qui s’intéresse aux évolutions futures en spéculant sur le développement de l'humanité, de la technologie et de la civilisation, et j’y ai posté mes interrogations. aaandy_who m’explique ceci : “J’ai pris des cours de machine learning à l’université. Le son capté par le microphone se transforme en signal électrique et est ensuite stocké en binaire, résultante de la modulation par impulsions et codage qui transforme le signal analogique en signal numérique. Le son est ensuite traité en intervalles de fréquences et de temps, un peu comme l’oreille interne traduisant les fréquences en signaux neuronaux. Le son devient ensuite une masse de données qui peuvent être introduites dans ce que l’on appelle des algorithmes de modèle/reconnaissance/classification. L’algorithme est entraîné sur un grand nombre d’exemples audio auxquels il essaie de faire correspondre les nouvelles données avec des modèles connus.” Voici donc comment les machines écoutent : en essayant de faire correspondre les données entrantes aux données connues. Lorsqu’il y a correspondance, la machine entend, et nous ne cessons d’alimenter les immenses bases de données qui entraînent les réseaux de neurones artificiels de ces oreilles algorithmiques.
Aux questions : “comment les machines entendent ?” ou “comment perçoivent-elles ?” Trevor Paglen, lors de la conférence Les images comme “Social Projectors” au Centre Pompidou le 10 novembre 2018, exprime que, bien que nous soyons tentés de fournir une explication technique à ces questionnements, “la meilleure réponse est qu’ils et elles voient [entendent] à travers les formes de pouvoir qu’ils ou elles sont destinées à améliorer et à reproduire.”
3.3 Réseaux de neurones audio pré-entraînés pour la reconnaissance de formes audio : j’ai utilisé un programme de reconnaissance sonore
Depuis ma position d’artiste, je n’ai pas accès à toutes ces applications de machine learning car elles sont développées par de grosses plateformes qui font payer l’accès à ces technologies. Il me faut trouver un moyen open-source, ouvert, pour pénétrer les arcanes de ces machines. La programmation informatique est un champ qu’il me paraît important d’explorer si l’on souhaite se saisir au mieux des questionnements fondamentaux qui sont à la base de nos outils numériques. Pour éviter de céder à la paranoïa vis-à-vis de cette surveillance diffuse, j’essaye de comprendre le fonctionnement d’un logiciel de reconnaissance sonore pour saisir l’infrastructure interne des machines d’écoute algorithmique.
J’ai décidé d’utiliser un programme de reconnaissance sonore dont le code a été publié sur GitHub, qui est un site de partage formant une immense bibliothèque de codes open source. Mon objectif était de ne pas me satisfaire d’un programme exécutable qui cacherait une fois de plus chacune de ses lignes de code derrière une interface alléchante, mais d’entrer réellement dans le code, de discuter avec la machine. Le programme en question s’intitule : Réseaux de neurones audio pré-entraînés à grande échelle pour la reconnaissance de modèles audio. Cinq personnes ont travaillé sur ce projet dont des chercheurs en analyse computationnelle d’événements sonores, des professeurs en traitement du signal et machine learning et des étudiants vainqueurs du challenge annuel DCASE (Détection et classification des scènes et événements acoustiques), pierre angulaire du domaine de classification et de reconnaissance des scènes acoustiques. Le projet s’appuie sur la base de données composée par Google, l’AudioSet Ontology, citée plus haut. Google a publié les extraits d’un réseau neuronal pré-entraîné sur lequel les chercheurs se sont appuyés pour former leurs propres réseaux neuronaux.
J’ai voulu entrer rapidement dans le vif du sujet, alors j’ai téléchargé le dossier, lu le README et le requirements.txt. J’ai tapé cmd pour ouvrir l’invite de commande un peu austère de Windows et… Je copie-colle. Je copie-colle les commandes pour l’installation des librairies nécessaires au bon fonctionnement du programme de reconnaissance sonore. Après quelques victoires, je vois les lignes rouges s'accumuler devant le vide abyssal de l’invite de commande. Des messages alarmants s’affichent : “WARNING : Discaring. ERROR: Could not find a version that satisfies the requirement matplotlib==3.0.3. ERROR: No matching distribution found for matplotlib==3.0.3.”, ce pavé de lignes d’erreur me ferait presque croire que j’ai définitivement fracassé mon ordinateur. S’en sont suivis de multiples essais infructueux, j’avais besoin d’aide. Heureusement, j’ai pu compter sur la Labomedia, association située à Orléans, qui étudie précisément les champs de l’art numérique et des technologies et propose des actions de médiation à destination des artistes. Tous les jeudis pendant un peu plus d’un mois, je me suis rendue dans leurs bureaux afin de faire fonctionner le code trouvé sur GitHub avec l’aide de Simon, conseiller médiateur numérique à la Labomedia, lui-même intéressé par les questionnements d’automatisation et de reconnaissance sonore, mais dans le champ musical. Ces temps ont amené des discussions variées, tant sur la musique que la programmation informatique ainsi que des recherches de positionnements possibles face à cette nouvelle surveillance auditive ambiante. Nous avons finalement réussi à boucler le fonctionnement du programme neuronal, non sans difficulté, surtout lié au fait que j’utilise un système Windows, moins adapté que Linux pour le code en Python.
Je suis donc encore aux débuts de l’exploration et de l’expérimentation de ce programme. J’ai commencé par m’enregistrer toute une journée, de 9h à 19h, à l’aide d’un microphone dissimulé dans la poche de ma veste. Je me suis rendue à l’ÉSAD d’Orléans, baladée dans la rue, j’ai beaucoup discuté et parfois, je ne faisais simplement rien. Ensuite, j’ai passé les fichiers audio dans le programme, et l’ai laissé calculer quelques heures avant d’obtenir les résultats interprétés. Sur neuf heures d’enregistrement audio, le programme a été capable de reconnaître une variété impressionnante de sons. Pour faciliter le rendu visuel traduisant les résultats du programme, Simon a réalisé une interface permettant d'avoir une courbe sur laquelle sont affichés les sons reconnus, leur position temporelle dans le fichier audio ainsi que leur taux de reconnaissance. Certains sons traduisent le rythme de ma journée : presque toutes les heures et demi-heures, le son de la cloche de la cathédrale d’Orléans est reconnu sous l’étiquette “Church bell”; “Bell” et “Jingle bell”. Le bruit de mes clés transcrit l’entrée ou la sortie de mon domicile. Les bruits de portes expriment que j’entre ou sors d’une pièce, combiné à l’étiquetage “Inside, small room” ou “Outside, urban or manmade”, on peut savoir avec certitude si je me trouve à l’intérieur ou à l’extérieur. La catégorie “speech” suggère la fréquence de mes interactions sociales. Mais le logiciel semble faire des erreurs. Ainsi se glissent dans ma journée des chants de baleine et le bruit des vagues, pourtant je n’habite ni près de la mer ni de l’océan et je suis plutôt certaine de ne pas avoir croisé de baleine ce jour-là. On y trouve aussi les ronronnements d’un chat que je n’ai pas, le bruit de la pluie qui n’est pas tombée ou d’un mantra que je n’ai pas récité. Ces catégories farfelues s’introduisent dans l’environnement sonore de ma journée car la base de données de Google sur laquelle est entraîné le programme que j’utilise renferme, par exemple, 249 extraits sonores de vocalisations de baleines. Peut-être que la machine est si précise qu’un chant de baleine a pu être confondu avec le souffle du vent, ou peut-être qu’il y a des baleines mais que nous ne sommes pas capables de les voir. Je pense plutôt que ce système est imparfait.
Conclusion
Pourtant, alors même que les machines sont dotées d’une ouïe parfois défaillante, en proie aux bugs, cela n’empêche pas le déploiement de capteurs de surveillance sonore dans les villes, les transformant chacune en ville-test grandeur nature, tel un immense laboratoire. Au mois d’octobre, je reçois dans ma boîte aux lettres le magazine Orléans Mag que je ne reçois habituellement jamais. Je le feuillette par curiosité. Dans un encadré jaune en bas d’une page, je lis “Innovation : détecteurs de sons anormaux”, le magazine prend d’un coup le caractère mystérieux d’un signe du destin. J’apprends donc que la ville d’Orléans se porte volontaire pour expérimenter l’installation de détecteurs d’anomalies sonores proposés par la startup Sensivic. Les détecteurs sonores, couplés aux caméras 360°, vont leur permettre de diriger les caméras vers le son déclencheur.
Sous les yeux des caméras poussiéreuses se profilent les fondements d’une ville intelligente s’équipant de capteurs aux performances toujours croissantes. L’espace urbain perd alors de son humanité, se transformant en un immense hangar quantifiable à l’image de ceux de l’entreprise Amazon, pour reprendre l’analogie faite par Bani Brusadin. Dans les entrepôts d’Amazon, les produits sont organisés en temps réel en fonction des comportements des utilisateurs en ligne. Les travailleurs y suivent aveuglément les instructions d’un système autonome construit sur des logiques de quantification et de traitement des données, via des processus visant à contrôler leur productivité. Face à l’extraction des données, nos villes empruntent un chemin similaire. La cité doit être optimisée, ses flux organisés, ses habitants comptés, tracés, évalués, fluidifiés, prédits et punis. La police devient Technopolice. C’est le nom donné par la Quadrature du Net, association de défense des droits et des libertés sur Internet, à une campagne lancée en 2019 visant à mettre en lumière le développement des dispositifs de la smart ou safe city, tout en construisant une résistance face à ces outils de surveillance. Les nouvelles mutations portées par la ville d’Orléans réaniment les problématiques induites par les capteurs audio qui avaient déjà fait polémique lors de leur installation à Saint-Étienne en 2019, alors déclarés illégaux par la CNIL. Selon la Quadrature du Net, ces dispositifs nous conduisent vers “le renforcement des formes de discrimination et de ségrégation, le musellement des mouvements sociaux et la dépolitisation de l’espace public, l’automatisation de la police et du déni de justice, la déshumanisation toujours plus poussée des rapports sociaux.”. Ma recherche se poursuit actuellement dans ce sens. Des formes plastiques s’ébauchent, donnant à voir ces formes de surveillance émergentes et visant à susciter une discussion publique sur les questions engagées par l’éclosion de la smart city.
Ouvrages/
BRATTON Benjamin. H, The Terraforming, Moscou, Strelka Press, 2019.
BRUSADIN Bani, The Fog of Systems, Ljubljana, Aksioma, 2021.
CHION Michel, Le Son ; traité d'acoulogie, rééd., Paris, Armand Colin, 2005 [1998].
CRAWFORD, Kate, Atlas of AI, Power, Politics, and the Planetary Costs of Artificial Intelligence, New Haven and London, Yale University Press, 2021.
DOCKRAY Sean, « Learning from YouTube. », Rivers of Emotion, Bodies of Ore. Oslo: Uten Tittel (Not Yet Titled Press) in collaboration with Kunsthall Trondheim, 2018.
EBNER Florian, GAENSHEIMER Susanne, KRYSTOF Doris et LISTA Marcella (dir.), I Will Survive, cat. expo., Paris, Centre Pompidou (19 mai - 5 juillet 2021), Paris, Éditions du Centre Pompidou, 2021.
KIRCHER Athanasius, « Magia Phonocamptica », Musurgia universalis sive Ars magna consoni et dissoni. Tomus II, Rome, 1650, p. 300-307.
KITTLER Friedrich, Gramophone, Film, Typewriter, trad. de l’allemand par Frédérique Vargoz, Dijon, Les Presses du réel, 2018 [1986].
LÉTHENET Benoît, Les espions au Moyen Âge, [Quintin] : Éditions Jean-Paul Gisserot, 2021.
LYON Richard. F, Human and Machine Hearing, Extracting Meaning from Sound, Cambridge University Press Book, 2017.
MIGAYROU Frédéric, LENGLOIS Camille, Neurones, les intelligences simulées, dans le cadre de Mutations/Créations 4, Éditions du Centre Pompidou, Éditions HYX, 2020. Ouvrage publié à l’occasion de l’exposition présentée au Centre Pompidou, Galerie 4, du 26 février au 20 avril 2020.
NEGROPONTE Nicholas, The Architecture Machine, Toward A More Human Environment, The MIT Press Cambridge, Massachusetts, and London, England, Septembre 1977.
RAMONET, Ignacio, L’Empire de la surveillance, suivi de deux entretiens avec Julian Assange et Noam Chomsky, Galilée, collection l’espace critique dirigée par Paul Virilio, 2015.
SINGH R., Profiling Humans from their Voice, Carnegie Mellon University Pittsburgh, PA, USA, Springer, 2019.
STERN Joël, PARKER James, Eavesdropping: A Reader, published by City Gallery Wellington in association with Liquid Architecture and Melbourne Law School, on the occasion of the exhibition Eavesdropping, curated by James Parker and Joel Stern, at City Gallery Wellington, 17 August–17 November 2019.
STERNE Jonathan, Une histoire de la modernité sonore, Paris, Éditions La Découverte/Philharmonie de Paris - Cité de la musique, 2015.
TZU Sun, L’Art de la guerre, traduit du chinois et commenté par Jean Lévi, Paris, Hachette Littératures, 2000, (chapitre XIII : «L’espionnage»).
SZENDY Peter, Sur écoute. Esthétique de l’espionnage, Paris, Les Éditions de Minuit, 2007.
TESQUET Olivier, État d’urgence technologique. Comment l’économie de la surveillance tire parti de la pandémie, Condé-en-Normandie, Premier Parallèle, 2021.
ZUBOFF Shoshana, L’âge du capitalisme de surveillance, Paris, Éditions Zulma, 2020.
Articles/Papiers/
ALLEN Jamie, « Beyond the media reveal », Seismograph Journal, 26 juin 2020.
ELMER Greg, NEVILLE Stephen J., « The Resonate Prison: Earwitnessing the Panacoustic Affect », Surveillance & Society, Mars 2021, [en ligne], https://www.researchgate.net/publication/349899073_The_Resonate_Prison_Earwitnessing_the_Panacoustic_Affect, [consulté le 13.01.22].
PASQUINELLI Matteo, « Three Thousand Years of Algorithmic Rituals: The Emergence of AI from the Computation of Space », e-flux Journal, Issue #101, Juin 2019, [en ligne], https://www.e-flux.com/journal/101/273221/three-thousand-years-of-algorithmic-rituals-the-emergence-of-ai-from-the-computation-of-space/, [consulté le 03.01.22].
Qiuqiang Kong, Yin Cao, Turab Iqbal, Yuxuan Wang, Wenwu Wang, Mark D. Plumbley, « PANNs: Large-Scale Pretrained Audio Neural Networks for Audio Pattern Recognition », 23 août 2020, [en ligne], https://www.researchgate.net/publication/338138392_PANNs_Large-Scale_Pretrained_Audio_Neural_Networks_for_Audio_Pattern_Recognition, [consulté le 22.09.21].
La Quadrature du Net, « Derrière les assistants vocaux, des humains vous entendent. Témoignage de Julie, “transcriber” pour Cortana », 18 mai 2018, [en ligne], https://www.laquadrature.net/2018/05/18/temoin_cortana/, [consulté le 10.01.20].
NEVILLE Stephen J., « Eavesmining: A Critical Audit of the Amazon Echo and Alexa Conditions of Use », Surveillance & Society, 2020, [en ligne], https://www.researchgate.net/publication/344076153_Eavesmining_A_Critical_Audit_of_the_Amazon_Echo_and_Alexa_Conditions_of_Use, [consulté le 03.11.21].
ROUVROY Antoinette, BERNARD Stiegler, « Le régime de vérité numérique. De la gouvernementalité algorithmique à un nouvel État de droit » Socio, 4 | 2015, mis en ligne le 28 mai 2015, [en ligne], http://socio.revues.org/1251, [consulté le 24.11.21].
SIX, Nicolas, “Dixième anniversaire de Siri : la reconnaissance vocale a-t-elle conquis notre quotidien ?”, Le Monde, 07 octobre 2021, [en ligne], https://www.lemonde.fr/pixels/article/2021/10/07/dixieme-anniversaire-de-siri-la-reconnaissance-vocale-a-t-elle-conquis-notre-quotidien_6097477_4408996.html, [consulté le 16.01.22].
STĘPIEŃ Adrian, « Why Real Sounds Matter for Machine Learning, Exploring the shortcomings of publicly available sources of audio data, such as YouTube and FreeSound, for sound recognition system training and evaluation », Audio Analytics, 2020.
TECHNOSPHERE MAGAZINE, Machine Listening, 15 décembre 2018, [en ligne], https://technosphere-magazine.hkw.de/p/Machine-Listening-kmgQVZVaQeugBaizQjmZnY, [consulté le 27.12.21].
ZILIO Marion, « Le futur est privé — sur l’exposition I will survive de Hito Steyerl », 26 mai 2021, [en ligne], http://marionzilio.com/i-will-survive-de-hito-steyerl/, [consulté le 10.01.22].
Expositions/
« Hlysnan: The Notion and Politics of Listening », 24 artistes exposés, curateurs : Berit Fischer, Kevin Muhlen, Casino Luxembourg, Luxembourg, 17 mai — 7 oct. 2014, [en ligne], https://beritfischer.org/2-2, [consulté le 25.11.21].
« Eavesdropping », organisé par Joel Stern (Liquid Architecture) & James Parker (Melbourne Law School), Ian Potter Museum of Art, Melbourne, University of Melbourne, 24 juil. — 20 oct. 2018, [en ligne], https://art-museum.unimelb.edu.au/exhibitions/eavesdropping/, [consulté le 22.11.21].
« I will survive » Hito Steyerl, Espaces physiques et virtuels, exposition au Centre Pompidou, Paris, 19 mai — 5 juil. 2021.
Conférences online/
« Machine Listening Ep 5: Unnatural Language Processing », Joël Stern and James Parker, Liquid Architecture, Unsound 2021: Intermission, 17 octobre 2021, YouTube, [en ligne], https://www.youtube.com/watch?v=QL4--f3gRC4
« Machine Listening Ep 4: Improvisation and Control », Joël Stern and James Parker, Liquid Architecture, Unsound 2021: Intermission, 13 mars 2021, YouTube, [en ligne], https://www.youtube.com/watch?v=EZvK8atIlnA&t=4631s
« Machine Listening Ep 3: Listening With The Pandemic », Joël Stern and James Parker, Liquid Architecture, Unsound 2020: Intermission, 4 octobre 2020, YouTube, [en ligne], https://www.youtube.com/watch?v=7mcBE-qTcVI&t=2606s
« Machine Listening Ep 2: Lessons In How Not To Be Heard », Joël Stern and James Parker, Liquid Architecture, Unsound 2020: Intermission, 3 octobre 2020, YouTube, [en ligne], https://www.youtube.com/watch?v=aS2Fp3W8l6A&t=8743s
« Machine Listening Ep 1: Against The Coming World of Listening Machines », Joël Stern and James Parker, Liquid Architecture, Unsound 2020: Intermission, 2 Octobre 2020, YouTube, [en ligne], https://www.youtube.com/watch?v=iUbglqQLdrI&t=6912s
Séminaire « Capitalisme numérique et idéologies », GDR 2091 Internet, IA et Société, Invités: Cédric Durand, Sébastien Broca, Isabelle Berrebi-Hoffmann, 1er juin 2021.
Manifestes/
Critical AI Art Practice Manifesto: Critical Art and the Ethics of AI, Marco Donnarumma, Wesley Goatley, Helena Nikonole, 2020.
The Critical Engineering Manifesto, Julian Oliver, Gordan Savičić, Danja Vasiliev, The Critical Engineering Working Group, Berlin, October 2011-2021.
Sonothèque/
[0:0] Maryanne Amacher, Adjacencies, a graphic score for two percussionists and electronics, AUDJOINS, a Suite For Audjoined Rooms, 1965, [en ligne], https://www.youtube.com/watch?v=iWOziHp2x-8, [consulté le 10.01.22].
[1:38] Joseph Sardin, La Sonothèque, Campagne 1, Son n°:97, Durée : 01:51, [en ligne], https://lasonotheque.org/detail-0097-campagne.html, [consulté le 28.01.22].
[7:55] Joseph Sardin, La Sonothèque, Battements de cœur 4, Son n° : 1 929, Durée : 00:46, [en ligne], https://lasonotheque.org/detail-1929-battements-de-coeur-4.html, [consulté le 17.02.22].
[9:39] iainmccurdy, Vinyl Crackling.wav, Vinyl record crackling, Durée 3:59, [en ligne], https://freesound.org/people/iainmccurdy/sounds/564795/, [consulté le 03.02.22].
[9:44] Jelly Roll Morton's Red Hot Peppers, Doctor Jazz, Rough Guide to the Roots of Jazz, Joseph Oliver, Walter Melrose, enregistré par Jelly Roll Morton and His Red Hot Peppers pour Victor Records le 16 décembre 1926, enregistré lors d'une session au Webster Hotel, à Chicago, 1926, [en ligne], https://www.youtube.com/watch?v=Vio-TjMi5_s, [consulté le 11.02.22].
[11:32] Gustave Eiffel, Jean Thevenot, La voix de Gustave Eiffel et l'histoire de cet enregistrement, Radiodiffusion Française, On grave à domicile, 4 février 1891, 19 mars 1948, [en ligne], https://www.ina.fr/ina-eclaire-actu/audio/p17083295/la-voix-de-gustave-eiffel-et-l-histoire-de-cet-enregistrement, [consulté le 26.12.21].
[12:03] Friedrich Jürgenson, From The Studio For Audioscopic Research [57 pistes], Parapsychic Acoustic Research Cooperative, Ash International, Firework Edition, Spectral Electric, Spectral Electric, EVP, 2000, La plupart de ces enregistrements ont été réalisés entre 1959 et 1985, [en ligne], https://www.youtube.com/watch?v=UGU-zkJqr2E, [consulté le 29.01.22].
[12:44] NebulousRoyale, Radio transmission morse code @4606.2kHz Poland, [en ligne], https://freesound.org/people/NebulousRoyale/sounds/343740/, [consulté le 30.01.22].
[12:57] Alexander Graham Bell, Hear my voice, Alexander Graham Bell and the Origins of Recorded Sound, Smithsonian’s National Museum of American History (NMAH), Volta Laboratory, Carl Haber at Lawrence Berkeley Laboratory, Library of Congress, 15 avril 1885, [en ligne], https://hyperallergic.com/218077/listen-to-the-resurrected-voice-of-alexander-graham-bell/, [consulté le 03.02.22].
[13:51] Conversation téléphonique enregistrée entre le président Nixon et Ronald Reagan, National Archives, 25 octobre 1971, [en ligne], https://www.youtube.com/watch?v=NMqggpgwna8, [consulté le 03.02.22].
[25:04] Echelon, le pouvoir secret - Le film documentaire, Un film écrit et réalisé par David Korn-Brzoza , Produit par Michel Rotman et Marie Hélène Ranc, Production : Kuiv Production, 2001, [en ligne], https://www.youtube.com/watch?v=cX0q-yFFQrQ&t=1992s, [consulté le 18.02.22].
[27:09] Government Surveillance: Last Week Tonight with John Oliver (HBO), LastWeekTonight, 6 avril 2015, [en ligne], https://www.youtube.com/watch?v=XEVlyP4_11M, [consulté le 18.02.22].
[27:19] NSA whistleblower Edward Snowden: 'I don't want to live in a society that does these sort of things', The Guardian, 9 juillet 2013, [en ligne], https://www.youtube.com/watch?v=0hLjuVyIIrs&t=148s, [consulté le 18.02.22].
[29:05] BLAST, Le souffle de l’info, « Les 1% ont hacké la démocratie », avec Virginie Martin, YouTube, 16 janvier 2022, 7min15s, [en ligne], https://www.youtube.com/watch?v=t3a0Bipvqbg, [consulté le 16.01.22].
[30:46] Shoshana Zuboff sur le capitalisme de surveillance, VPRO Documentaire, 21 déc. 2019, [en ligne], https://www.youtube.com/watch?v=hIXhnWUmMvw, [consulté le 19.02.22].
[35:36], 高中正義 Masayoshi Takanaka - All of me, UMG (au nom de Universal Music); UMPG Publishing, Polaris Hub AB, 21 juin 1979, [en ligne], https://www.youtube.com/watch?v=FBWbfkzYr7k, [consulté le 11.12.21].
[36:33] Joseph Sardin, La Sonothèque, Intérieur maison de campagne, Son n° : 750, Durée : 01:26, [en ligne], https://lasonotheque.org/detail-0750-interieur-maison-de-campagne.html, [consulté le 02.02.22].
[38:03] Joseph Sardin, La Sonothèque, Vaisselle faite à la main, Son n° : 391, Durée : 02:01, [en ligne], https://lasonotheque.org/detail-0391-vaisselle-faite-a-la-main.html, [consulté le 02.02.22].
[38:11] Mrs. Doubtfire Phone Call Interviews, At Post With Mike, [en ligne], https://www.youtube.com/watch?v=2bttZmCyvmI, [consulté le 02.02.22].
[42:44] LE BONNIEC Thomas, ORTONA Filippo, “Comment Apple vous écoute en permanence”, Le Media, 10.03.2020, [en ligne], https://www.lemediatv.fr/emissions/2020/comment-apple-vous-ecoute-en-permanence, [consulté le 03.01.22].
[46:29] Sean Dockray, Listening to the diagnostic ear, [en ligne], https://e-rat.org/listening-to-the-diagnostic-ear/, [consulté le 24.11.21].
[50:43] Bexhillcollege, College door slam.wav, Durée 06:05, [en ligne], https://freesound.org/people/Bexhillcollege/sounds/274214/, [consulté le 20.02.22].
[53:56] KenzieVaness, Cooking in the Kitchen, Durée 01:33, [en ligne], https://freesound.org/people/KenzieVaness/sounds/352050/, [consulté le 20.02.22].
[53:56] kwahmah_02, Doorbell E, Durée 0:02:37, [en ligne], https://freesound.org/people/KenzieVaness/sounds/352050/, [consulté le 20.02.22].
[54:02] Joseph Sardin, La Sonothèque, Aboiement de chien en intérieur, Son n° : 112, Durée : 00:09, [en ligne], https://lasonotheque.org/detail-0112-aboiement-de-chien-en-interieur.html, [consulté le 20.02.22].
[57:49] Joseph Sardin, La Sonothèque, Ambiance de Bar 1, Son n° : 480, Durée : 01:34, [en ligne], https://lasonotheque.org/detail-0480-ambiance-de-bar-1.html, [consulté le 20.02.22].
[58:41] Joseph Sardin, La Sonothèque, Verre qui éclate, Son n° : 148, Durée : 00:02, [en ligne], https://lasonotheque.org/detail-0148-verre-qui-eclate.html, [consulté le 20.02.22].
[58:49] InspectorJ, Sneeze, Single, D.wav, Durée : 0:01.325, [en ligne], https://freesound.org/people/InspectorJ/sounds/368802/, [consulté le 20.02.22].
[59:12] Joseph Sardin, La Sonothèque, Friture à la poêle 1, Son n° : 143, Durée : 00:06, [en ligne], https://lasonotheque.org/detail-0143-friture-a-la-poele-1.html, [consulté le 20.02.22].
[1:00:12] Hito Steyerl, The City of Broken Windows, 2018, « Machine Listening Ep 1: Against The Coming World of Listening Machines », Joël Stern and James Parker, Liquid Architecture, Unsound 2020: Intermission, 2 Octobre 2020, YouTube, [en ligne], https://www.youtube.com/watch?v=iUbglqQLdrI&t=6912s
[1:03:43] Marlene, The Cheater, SME, Sony Music Entertainment (Japan) Inc. (au nom de Sony Music Labels Inc.); Muserk Rights Management et 1 sociétés de gestion des droits musicaux, 1983, [en ligne], https://www.youtube.com/watch?v=1uUmGFhvEKw, [consulté le 30.01.22].
[1:03:56] kyles, door wood hits impacts small break through clumsy metal thing dall.wav, Durée : 0:07.048, [en ligne], https://freesound.org/people/kyles/sounds/450793/, [consulté le 30.01.22].
[1:06:03] Audio Analytic, The Home of Sound Recognition, 24 mai 2016, [en ligne], https://www.youtube.com/watch?v=nEsr0N-BW2M, [consulté le 20.02.22].