Après Sora en février, OpenAI présente Voice Engine ; après l’image virtuelle, le clonage de voix ! La firme US élargit encore le champ des applications de l’intelligence artificielle (IA). Et relance le débat sur l’encadrement des usages inquiétants.
C’est confirmé : OpenAI avance vite et OpenAI sait communiquer ! Depuis la fin 2023, la firme californienne semble défricher tous azimuts, accélérant le rythme des annonces, dévoilant chaque mois un nouvel outil abouti et bluffant. Pourtant, certains outils, comme ceux dédiés à la création d’images vidéo ou au clonage de la voix, sont déjà à portée de main, mis au point par des start-ups plus discrètes mais pas moins innovantes, ouvrant toujours plus le champ des possibles et… celui des abus.
En ce début d’année, donc Open AI, créateur de ChatGPT, s’attaque à la génération d’images virtuelles à partir de textes, et au clonage de voix humaines. Reconnaissant sans détour le « potentiel d’utilisation abusive des voix synthétiques, particulièrement importants en cette année électorale », le porte drapeau américain de l’Intelligence Artificielle s’est empressé d’annoncer une série de mesures pour prévenir et détecter les usages malhonnêtes voire criminels de ses outils. Avec quelle efficacité?.. Explications :
Sora : ou comment créer simplement des vidéos à partir de prompts
En février, l’ex-association à but non lucratif basée à San Francisco présentait son application stupéfiante de génération de vidéos à partir d’un simple texte.
« Sora peut générer des vidéos d’une durée maximale d’une minute. Il est capable de générer des scènes complexes avec plusieurs personnages, des types de mouvements spécifiques et des détails précis du sujet et de l’arrière-plan »
Open AI
Le modèle comprend non seulement ce que l’utilisateur a demandé dans l’invite, mais également comment ces choses existent dans le monde physique ».
Voice Engine : un échantillon de 15 secondes lui suffit pour créer un clone vocal
Testé « in vitro » depuis 2022 dans les labos d’OpenAI, l’outil Voice Engine a été présenté fin mars au grand public. Ce cloneur de voix humaines qui utilise l’IA et ses algorithmes d’apprentissage profond a été conçu à partir de l’outil de reconnaissance du langage Whisper. Bien connu des experts, Whisper est le produit de l’exploitation de… 650 000 heures de langages multilingues enregistrées !
« Aujourd’hui, nous partageons les informations et les résultats préliminaires d’un aperçu à petite échelle d’un modèle appelé Voice Engine »
Open AI
Voice engine utilise la saisie de texte et un seul échantillon audio de 15 secondes pour générer une parole naturelle qui ressemble beaucoup à celle de l’orateur d’origine. Il est à noter, a tenu à préciser l’entreprise US , qu’un petit modèle avec un seul échantillon de 15 secondes peut créer des voix émouvantes et réalistes».
Déjà de nombreuses personnalités clonées
De quoi créer des clones vocaux indiscernables des originaux, notamment de personnalités célèbres. Des exemples, créés à partir d’autres outils, ont déjà fait le tour des réseaux sociaux, parfois de façon vertueuse, comme le clonage réalisé par Synthesia reproduisant la voix de Barack Obama pour promouvoir la sensibilisation aux deepfakes. Parfois de manière nuisible, comme le clone vocal de Joe Biden faisant campagne au téléphone pendant la primaire des démocrates.
On a également pu entendre de fausses conversations d’artistes comme Billie Eilish ou Freddie Mercury grâce à des outils comme Resemble AI. De nombreuses plateformes proposent d’ailleurs des brochettes de voix célèbres de la politique, du spectacle, du sport…
Les possibilités semblent désormais infinies. Et se multiplient depuis l’avènement, l’an dernier, d’outils tels que Elevenlabs, qui met en avant son éthique, ou comme Voice.ai, Descript, PlayHT, le chinois Streamvoice capable de cloner en temps réel une voix, ou encore Vidnoz, gratuit et facile à utiliser grâce à sa jolie banque de célébrités… Sans compter l’iPhone d’Apple capable depuis son iOS 17 de cloner la voix de son propriétaire pour remplacer Siri.
Du bon usage des libertés
Bref, tout devient possible et les outils se multiplient devenant de plus en plus accessibles au fil des centaines de tutoriaux disponibles sur le web et grâce à des tarifs très abordables, voire gratuits, qui stimulent le nouveau business du clonage. Le monde se trouve donc à un tournant crucial de l’usage des libertés. L’Américain Robert Weissman, président du groupe de protection des droits civiques Public Citizen, a appelé récemment à un sursaut : «Les parlementaires doivent agir rapidement pour ériger des protections sinon nous nous acheminons vers un chaos politique». Rien que ça.
Un tournant éthique, mais après ?
La prolifération des deepfakes a mis en lumière les risques que fait courir l’irruption de l’IA dans notre quotidien et même, risquons le terme, dans nos démocraties. OpenAI qui en a donc conscience, a annoncé que son outil Voice Engine n’est, pour l’heure, accessible au grand public. Il est pour l’heure réservé à des développeurs, des media, des experts en fake news, en IA et en éthique, tous triés sur le volet et chargés de lui faire un retour sur l’étendue des risques de dérives et de proposer des pistes pour une sorte de charte du bon usage des cloneurs.
La firme de San Francisco a néanmoins annoncé que des efforts seront déployés rapidement pour développer des contre-mesures permettant de détecter les manipulations audios et de sensibiliser le public à ces problématiques. Il a également indiqué travailler étroitement avec plusieurs gouvernements, particulièrement ceux concernés par des élections et qui pourraient patir des usages malveillants de ces technologies.
Premières pistes
De son côté, suite à l’affaire de son clone vocal, le Président Biden a fait voter en octobre dernier une loi pour, d’une part, sanctionner plus sévèrement les abus, et d’autre part inciter à la recherche et à la lutte contre ces dérives. Pas sûr que cela suffise car les plateformes de clonages se multiplient et se spécialisent à grande vitesse.
Certains, comme Vijay Balasubramaniyan, cofondateur et CEO de l’entreprise de cybersécurité Pindrop, recommandent l’installation rapide et systématique de filigranes audios ou de signatures numériques dans les outils de clonage pour identifier facilement les fakes. Une piste intéressante mais dont on imagine qu’elle sera vite contournable.