Actualités

Co-écrire une chanson avec l'intelligence artificielle

Le 18 mars, l’union européenne de radio-télévision se rend à l’évidence : en raison de l’épidémie en cours, le concours qu’elle organise sans interruption depuis plus de soixante ans, l’Eurovision, n’aura pas lieu. Mais son petit frère virtuel, en quelque sorte, est lui maintenu. AI Song Contest, c’est son nom, organisé par un groupe audiovisuel public néerlandais, VPRO, propose à des équipes mêlant artistes, développeurs informatiques et scientifiques de créer un « tube pour l’Eurovision », avec « l’aide de l’intelligence artificielle ». Bien qu’un peu circonspecte au départ, mais finalement déterminée à en faire un exercice fécond scientifiquement, une équipe d’informatique musicale de Lille et d’Amiens, Algomus a décidé de participer. In extremis. « On a enregistré Niam, la chanteuse, le 12 mars, raconte Mathieu Giraud, chercheur au CNRS et responsable de l’équipe. Quatre jours plus tard, le confinement a été décrété. » La finalisation du morceau, elle, se fera à distance.

Créer des chansons par intelligence artificielle ? La discipline connaît son lot d’annonces tonitruantes, sur la possibilité par exemple, de générer tubes ou albums entiers avec de l’intelligence artificielle. « Mais quand on creuse un peu les annonces, même des équipes spécialisées, explique Florence Levé, maître de conférences à l’Université de Picardie Jules-Verne (UPJV), on a bien du mal à savoir ce qui relève vraiment de l’intelligence artificielle ». Il y a quatre ans, la promotion d’une « nouvelle » chanson des Beatles écrite par une intelligence artificielle, avait en fait nécessité l’implication étroite d’un compositeur professionnel. Démystifier les mirages d’une autonomisation de l’informatique et autres « machines à tubes » est un peu l’intuition de départ de l’équipe Algomus, qui l’a poussée à s’inscrire au concours. Leur but : montrer de manière transparente ce qui peut être fait aujourd’hui grâce à l’intelligence artificielle, pour mieux en explorer les possibilités créatives.

Assister la composition de musique

« Aux débuts de la photographie au XIXᵉ siècle, certains dénonçaient une reproduction mécanique de la réalité, dépourvue d’intérêt artistique, rappelle Mathieu Giraud. Personne ne nierait aujourd’hui que la photographie est un art ». Un art assisté par une technologie, tout comme doit pouvoir l’être, estime l’équipe, la musique aidée de l’intelligence artificielle. Non seulement en fournissant une panoplie d’outils aux compositeurs aguerris, mais aussi en facilitant l’appropriation de la musique par les débutants. « Leur proposer différentes manières de poursuivre le début d'un morceau, par exemple, mentionne Louis Bigo, maître de conférences à l’Université de Lille, tout en respectant le cadre habituel de la musique occidentale depuis la Renaissance, ce qu’on appelle le langage tonal », dont les règles d’harmonie restent relativement ardues pour les musiciens en herbe. L’équipe a d’ailleurs débuté une collaboration avec la société qui édite Guitar Pro, l’un des principaux logiciels de composition avec cet instrument, pour développer de nouvelles fonctionnalités de ce type.

Ça, c’était la théorie. Restait à s’atteler à la pratique, c’est-à-dire livrer un morceau en à peine quelques semaines, au côté des multiples activités d’une équipe de recherche qui n’est que partiellement spécialiste de la question (voir encadré). Pour cela, les scientifiques ont subdivisé la création de la chanson en plusieurs étapes. D’abord, trouver la structure : faut-il une introduction, différents refrains et couplets (et dans quel ordre), doit-il y avoir aussi d’autres séquences moins connues des profanes comme le « hook », un passage qui « accroche » l’attention de l’auditeur par son originalité, etc. Obtenir ensuite pour chacune de ces parties, la suite d’accords sur laquelle s’appuiera la composition de la mélodie, en choisissant son rythme et son tempo. Écrire les paroles, bien sûr. Enfin vient le choix de l’arrangement, c’est-à-dire celui des instruments à utiliser, l’ajout éventuel d’une « ligne » de guitare basse, de percussion, etc.

« En laissant faire le hasard à chacune de ces étapes, nous obtiendrions sans doute des milliers de possibilités, voire plus », explique Florence Levé. La seule manière de laisser l’intelligence artificielle choisir, serait de l’entraîner peu à peu à s’approcher de plus en plus du style des chansons voulues, en utilisant par exemple des techniques appelées deep machine learning. « Mais la base de deux cents chansons de l’Eurovision dont nous disposions est un souvent un peu trop petite pour faire converger ces méthodes. » Raison de plus, pensèrent les membres de l’équipe, pour y injecter un peu d’humain.

L’humain à la baguette

La méthode qu’ils adoptent, à peu près la même à chaque étape, tente en effet de faire collaborer humains et machines. D’abord, l’équipe met au point sa manière de procéder pour chaque étape, parfois en l’inventant complètement, faute de la trouver décrite dans la littérature scientifique. Puis elle règle l’algorithme de manière à obtenir une dizaine ou plus de solutions. Soit ils choisissent collectivement celle qui sonne le mieux à leur oreille. Soit ils laissent le hasard donner au morceau un tour inattendu. « Pour l’ordre et le choix des séquences couplets, refrains etc., raconte Richard Groult, maître de conférences à l’UPJV, l’algorithme a placé au milieu du morceau un “pont” [un passage transitoire assez autonome du reste du morceau, par exemple avec un solo de guitare]. Cela nous a un peu désarçonné au début, mais nous avons finalement choisi de le garder », le considérant comme l’apport créatif de l’intelligence artificielle. « Je me suis souvent senti frustré, raconte Gianluca Micchi, post-doctorant dans l’équipe, qui a beaucoup travaillé sur la génération des suites d’accords et de la mélodie, Je me disais : Si seulement je pouvais juste changer cet accord ou réécrire ces paroles… ». Mais en acceptant comme un jeu cette « expérience légèrement inconfortable », cette contrainte créative, il finit parfois par beaucoup apprécier les moments où la machine décide.

Ce qui n’a pas empêché l’équipe, quand elle le jugeait bon, de prendre quelques libertés avec les desiderata de l’informatique : le groupe a choisi par exemple d’échanger les accords du refrain et d’un autre passage, d’inventer tous ensemble la mélodie d’un des couplets en fredonnant chacun à son tour à partir de la suite d’accords qu’avait généré l’algorithme, ou encore de laisser la chanteuse Niam, par ailleurs élève-ingénieure de Polytech − école de l’Université de Lille −, semi-improviser pendant l’enregistrement. « L’ingénieur du son qui a fait le mixage final était franchement étonné d’apprendre qu’il s’agissait de musique générée avec un ordinateur, précise Louis Bigo. Quand au jury, il va apprécier la méthode et la manière plus ou moins créative d’avoir recouru à l’intelligence artificielle, mais l’avis du public compte : tout le monde peut voter dès aujourd’hui et jusqu’au 10 mai, et l’équipe lauréate sera annoncée le 12 mai.


Votez pour la chanson de l'équipe Algomus, I Keep Counting, ici. et découvrez les autres.

Trouver son hook

Trouver le hook, ce petit passage original qui va faire que la chanson va attirer, être retenue ? Pas facile quand on ne dispose comme base de données que des deux cents chansons de l’Eurovision. Pour enrichir ce corpus, l’équipe se tourne vers une autre base de 10 000 mélodies. Problème :elle contient un grand nombre d’œuvres de la musique classique, qui, parce qu’elles sont en général musicalement plus complexes, ont des durées de note nettement plus courtes (et ont également un tempo plus lent). Les premiers essais génèrent aussi beaucoup de sauts entre des notes de hauteurs très différentes, pas très agréables à écouter. Qu’à cela ne tienne, l’équipe restreint le nombre d’octaves possibles, et contraint autoritairement tempo et durée de notes à s’aligner sur ceux des chansons de l’Eurovision. Et ça marche…

« Plusieurs des étapes de la création de cette chanson, comme générer des accords ou des mélodies, sont des sujets de thèse en eux-mêmes, explique Mathieu Giraud. Mais les délais étaient si courts par rapport aux nécessités de la recherche que nous avons dû parfois bricoler un peu, et faire des choix sans avoir tout à fait le temps de la réflexion ».

 

 

Une moulinette à paroles

Générer les paroles d’une chanson sortait clairement des compétences d’une équipe d’informatique musicale. Les premiers essais ne sont d’ailleurs pas concluants. Alors, devant les difficultés des algorithmes à respecter la métrique et la musicalité de la langue, l’équipe, pressée par le temps, prend une option radicale. Elle liste les paires de mots les plus fréquentes dans les chansons de l’Eurovision. Coup de chance ? Reflet d’une sobriété lexicale chez des paroliers qui doivent plaire au plus grand nombre ? Ces cent paires font rigoureusement toutes deux syllabes (your heart, thank you, etc.), simplifiant grandement le travail des scientifiques. L’équipe en sélectionne alors une dizaine pour former un début de chanson (commençant par « My heart/my love/the love/you know […] »)

Elle utilise ensuite un réseau de neurones (appelé GPT 2), un programme informatique entraîné sur des millions de textes à prédire ce que pourrait être la suite d’une séquence de mots. « Ces techniques ont fait des progrès assez impressionnants depuis quelques années », commente Louis Bigo. L’équipe l’applique à son début de texte pour générer le reste de la chanson. Même si la grammaire anglaise y est sans doute un peu relâchée, le texte reste compréhensible, le cerveau se chargeant d’y prêter du sens.

Les paroles de la chanson I Keep Counting

Analyser les morceaux plutôt que les créer

 Algomus est une équipe du centre de recherche en informatique, signal et automatique de Lille (CRIStAL), fortement reliée au laboratoire Modélisation, information, systèmes (MIS²). « Notre spécialité n’est pas de générer des morceaux par intelligence artificielle, précise Mathieu Giraud, mais de les analyser, notamment à partir de leurs partitions. C’est un peu comme d’étudier l’œuvre d’un écrivain pour voir s’il utilise plus souvent certains mots, recourt à certaines tournures de phrases… ». Laurent Feisthauer, en dernière année de thèse, explore par exemple les cadences et les fins de phrase chez Bach et Mozart. Louis Bigo a travaillé sur les musiques de transe. Emmanuel Leguy, ingénieur, développe la plateforme Dezrann utilisée dans les collèges pour transmettre l'analyse musicale. Quant à Mathieu Giraud, il travaille sur l’harmonie, après des recherches en bioinformatique − « en quelque sorte, je suis passé de l’analyse des A, T, G, C de l’ADN à celle des do, ré, mi, fa de la musique… ». Les travaux des autres membres de l’équipe sont à retrouver sur leur site internet.

www.algomus.fr


¹ Univ. Lille, CNRS, Centrale Lille

² Univ. Picardie Jules Verne



Liens associés