Kyutai fait mieux qu'OpenAI avec Moshi, son chatbot qui génère de la voix en temps réel
Des nouvelles du laboratoire de recherche ouverte Kyutai, foncé en novembre 2023. Développé "from scratch", son assistant Moshi est doté d'une fonction de synthèse vocale très réactive et capable de fidèlement reproduire des intonations humaines. Derrière celui-ci se trouve Helium, un modèle de langage multimodal qui comporte 7 milliards de paramètres. En parallèle, les chercheurs ont développé une solution de watermarking et planchent sur l'aptitude du modèle à prédire et générer la suite d'un segment audio.
La France est un vivier de talents en intelligence artificielle. Preuve en est avec les avancées réalisées par le laboratoire de recherche en intelligence artificielle Kyutai basé à Paris. Fondé en novembre 2023, le labo a, en l'espace de six mois et avec une équipe de 8 chercheurs, développé une solution d'IA vocale capable de répondre oralement en temps réel et dotée d'une capacité de transcription également en temps réel, le tout en anglais. Il faut dire qu'avec des talents comme Neil Zeghidour, qui a créé MusicLM chez Google, ou Alexandre Défossez, qui a dirigé le projet MusicGen chez Meta, il avait toutes les chances de son côté.
Baptisé Moshi – clin d'œil à l'interjection japonaise équivalente de "allô" – cet outil repose sur le grand modèle de langage multimodal de 7 milliards de paramètres appelé Helium. Ce dernier, considéré comme relativement compact, s'appuie sur des données textuelles et audio. Il a servi de fondation au développement de Moshi. Précisons qu'une grande partie des données de pré-entraînement "ont été récupérées en ligne".
Pour réussir cette prouesse, les chercheurs ont conçu un nouveau modèle audio en compressant dans un premier temps l'audio en pseudo-mots, puis en entraînant le modèle à partir de ces "jetons audio", prédisant chaque segment audio à partir du précédent, soit comme pour un LLM textuel classique.
Un prototype expérimental pour le moins prometteur
S'il ne s'agit pour l'heure que d'un "prototype expérimental", précise Patrick Pérez, dirigeant du laboratoire Kyutai et ancien directeur de Valeo.ai, le modèle est d'ores et déjà capable de générer 100 000 transcriptions de style "oral". En parallèle, les chercheurs ont dévoilé une autre fonctionnalité : le watermarking. Cela fait partie de leur stratégie de sécurité, l'objectif étant de pouvoir identifier les fichiers audio générés par l'intelligence artificielle à l'aide d'un "marqueur" encodé dans ces derniers. Mais ce qui frappe peut-être le plus, c'est l'aptitude du modèle à prédire la suite d'une phrase à partir des premiers mots donnés, soit à l'écrit, soit à l'oral.
Lors de la démonstration, les équipes ont fait le choix d'extraire un segment audio d'une dizaine de secondes : il s'agit de quelques mots prononcés par Xavier Niel lors du lancement officiel du laboratoire en fin d'année dernière à Station F. Et le résultat est plutôt impressionnant : Moshi est capable de reprendre ces dix secondes de parole et de poursuivre le discours du fondateur d'Iliad en restant fidèle à ce que ce dernier affirmait dans son discours.
Pour Xavier Niel, les avancées de Kyutai sont une réussite
Interrogé à ce sujet, Xavier Niel s'est félicité des avancées significatives dévoilées ce 3 juillet. Il estime que ce que Kyutai a réussi à faire est majeur et cite en comparaison le modèle GPT-4o d'OpenAI. Largement satisfait des outils développés à date – à savoir le LLM Helium, la capacité à générer de la voix, la voix elle-même de Moshi et le watermarking – il précise que "l'investissement ici est dérisoire".
"On aurait pu mettre 10 millions et lancer une entreprise", lâche-t-il. En choisissant la voie du financement d'un laboratoire à but non-lucratif, Xavier Niel, Rodolphe Saadé et Eric Schmidt ont "libéré le potentiel de la recherche en France". A raison, car, comme le précise l'homme d'affaires, il faut garder les talents en France et cela commence par les chercheurs qu'il faut bien rémunérer. Lorsque l'on évoque le choix de l'open science, sans perspectives de monétisation, il rétorque que son fonds d'investissement (Kima Ventures) est actionnaire de Mistral AI et qu'il s'agit de deux choses différentes.
Une voix à la ressemblance humaine troublante
Autre détail qui a son importance : la voix de Moshi est celle d'une artiste, Alice. Cette dernière a enregistré pour le projet pas moins de 20 heures d'audio, incluant des monologues avec diverses émotions, des conversations scénarisées ainsi que des dialogues improvisés. Ainsi, Moshi est capable de s'adapter à la demande d'intonation ou de voix de l'utilisateur et peut jouer jusqu'à 70 types d'émotions différentes.
Durant la présentation par les équipes de Kyutai, plusieurs chercheurs ont interagi avec Moshi pour montrer l'étendue de son potentiel. Celle-ci a ainsi tantôt endossé le rôle de guide de voyage, tantôt de coach en vue de gravir l'Everest, et est même capable d'incarner des personnages en s'appuyant sur quelques directives. La voix est fluide, la latence est relativement faible – de l'ordre de 160 ms en théorie et de 200 ms de bout en bout, soit du micro jusqu'aux haut-parleurs.
Un modèle capable de tourner sur ordinateur portable ou smartphone ?
Le modèle tourne aujourd'hui dans le cloud de Scaleway, sur un cluster comportant un millier de GPU Nvidia H100. A l'avenir, l'une des pistes que les équipes de Kyutai explore consiste à faire tourner le modèle en local, sur ordinateur portable ou même sur smartphone. Amélie Royer, membre de l'équipe, évoque la compression du modèle comme piste étudiée pour rendre cela possible. A la clé : des conversations plus longues et une latence réduite.
Si l'on ne connaît pas encore tous les détails, une démo interactive de Moshi est désormais accessible depuis le site de Kyutai et peut être testée par quiconque le souhaite (avec une petite file d'attente), sans besoin d'être un professionnel, et ce, gratuitement. Pour ce faire, cette version expérimentale "va tourner sur deux set-up : des machines de Scaleway en France et des machines de Hugging Face aux États-Unis", indique Patrick Pérez. Les essais sont limités à 5 minutes.
L'Usine Digitale en a fait l'essai et le système est remarquable à plusieurs titres : il parle avec un ton décontracté et sa latence est généralement assez faible grâce à des techniques de prédiction qui font qu'il répond souvent avant même qu'on ait fini de parler. Ce n'est pas parfait et il dit pas mal de bêtises (comme n'importe quel autre LLM), mais ce tour de passe-passe est impressionnant. Par la suite, l'objectif étant d'ouvrir Moshi au plus grand nombre, les équipes réfléchissent à une licence qui soit "la plus permissive possible" et prévoient de publier nombre d'articles scientifiques en sus du modèle et du code liés.
Monétiser ? Pourquoi pas, mais la recherche avant tout
Interrogé sur les autres projets à venir, Patrick Pérez préfère rester évasif : "Nous allons lâcher le modèle pour voir comment il est accueilli et ce que cela donne". La question d'une version capable d'échanger en français est bien évidemment étudiée, ajoute-t-il. En parallèle, des techniques vont être "creusées" pour faciliter le fine-tuning du modèle et approfondir les recherches sur le watermarking, indique-t-il.
Et pour ceux qui espéraient en savoir plus sur les quelques 300 millions d'euros avancés par les trois investisseurs du projet en novembre dernier, "une partie majoritaire des fonds est utilisée pour faire tourner les machines". L'heure est donc bien à la recherche ouverte et non à la monétisation. Même si l'éventualité de discuter avec des entreprises de futures versions personnalisées n'est pas écartée. "Pour nous, l’ambition c’est de faire de la recherche à fort impact. Nous sommes ravis si les entreprises viennent nous voir aussi pour monétiser cela", conclut le dirigeant du laboratoire.
SUR LE MÊME SUJET
Kyutai fait mieux qu'OpenAI avec Moshi, son chatbot qui génère de la voix en temps réel
Tous les champs sont obligatoires
0Commentaire
Réagir