ChatGPT est assurément l’outil d’intelligence artificielle (IA) générative le plus connu, mais il est loin d’être le seul… En effet, les applications propulsées par cette forme d’IA et accessibles au grand public ne cessent de se multiplier. Rappelons qu’au moyen d’algorithmes et à partir de mégadonnées, ce type d’IA est capable de générer du contenu original, qu’il s’agisse de texte, d’image, d’audio ou de vidéo, en réponse aux requêtes de l’utilisateur. Alors que ces applications évoluent très rapidement, ils tendent à se faire de plus en plus multimodales, autrement dit à générer plus d’un type de contenu. Pour mieux les comprendre, il est utile de connaître les différentes catégories sous lesquelles on peut classer les technologies qui les sous-tendent. Bien qu’il existe plusieurs types de nomenclatures, nous vous en proposons une en dix catégories.

Note : Aussi fascinants et utiles qu’ils puissent être, ces outils soulèvent plusieurs enjeux, dont celui du droit d’auteur, celui de leur utilisation à des fins d’hypertrucage (deepfake), ainsi que tous les enjeux éthiques plus généraux concernant le développement et l’usage de l’IA générative. Nous ne discuterons pas ici de ces questions aussi importantes que complexes. C’est toutefois en ayant une meilleure connaissance du potentiel de l’IA générative qu’il nous sera possible collectivement de décider de la manière dont nous souhaitons que cette technologie soit balisée.

Outils qui convertissent…

1. du texte en texte (TTT)*

Ces outils génèrent des réponses sous forme de textes à des requêtes textuelles (aussi appelées « invites » ou « prompts »). Ils peuvent répondre à des questions, rédiger ou aider à rédiger des textes, faire de la traduction de langues ou même concevoir des jeux-questionnaires. Les applications de ce type les plus connues et performantes sont ChatGPT et Bard. Avec des modules d’extension (plug-in), ChatGPT peut toutefois traiter des types de contenu autres que textuels, alors que Bard intègre la reconnaissance vocale et permet d’écouter la réponse par le biais d’un audio. Dans la catégorie TTT, on peut aussi ajouter la génération de code, soit la représentation des données dans le domaine informatique. Des programmeurs en binôme d’IA générative, tels qu’OpenAi Codex ou GitHub Copilot, proposent des suggestions d’autocomplétion.

*Entre parenthèses : les abréviations anglophones qui sont aussi d’usage courant en français

2. du texte en parole (TTS)

Ces outils génèrent des réponses sous forme de paroles audibles à des requêtes textuelles. Ils peuvent donc répondre oralement à des demandes écrites, comme le fait un GPS, par exemple, ou encore transmettre un texte à haute voix, une fonction particulièrement utile pour éditer des vidéos et rendre des documents écrits accessibles aux personnes malvoyantes, ou même traduire un texte écrit et transmettre cette traduction verbalement. Cette technologie fonctionne en découpant le texte en lettres et groupes de lettres, donc en plus petites unités de sons (phonèmes), ainsi qu’à le rendre en imitant la voix humaine. Un choix de langues, d’accents, de voix et d’émotions transmises dans le ton est en général proposé. Eleven Multilingual v2 d’ElevenLabs et SeamlessM4T de Meta AI comptent parmi les plus récentes applications et les plus avancées du genre. Mentionnons le dévoilement par Microsoft de VALL-E, une application de TTS dont la particularité est de pouvoir reproduire la voix d’une personne réelle à partir d’un échantillon audio de seulement trois secondes. Vu les risques que pose cette technologie pour l’usurpation d’identité, celle-ci n’est pas encore accessible au grand public.

3. du texte en image (TTI)

À partir de descriptions textuelles, ces outils peuvent générer des images originales en 2D, certains même en 3D, ou encore modifier des images existantes. Les images peuvent être photoréalistes ou de type artistique. Puisque l’Internet regorge d’une banque d’images impressionnante, les possibilités sont pratiquement infinies et il revient à l’utilisateur de formuler une requête assez précise pour que le résultat se rapproche le plus possible de celui souhaité. Dans une optique créative, ces applications permettent donc un éventail de possibilités allant de la simple amélioration de la qualité d’une photo sans nécessiter de connaissances en logiciels de retouches jusqu’à la création d’images artistiques sur n’importe quel sujet et de n’importe quel style, avec des rendus parfois impressionnants.

Les applications MidJourney, DALL·E, Stable Diffusion ou Jasper Art ne sont que quelques exemples parmi les plus connus. Mentionnons que l’IA de la 3e génération de DALL·E est capable d’ajouter du texte à l’image, une première pour ce type d’application. Dans une optique plus pratique, certaines applications de TTI permettent de générer spécifiquement des codes-barres bidimensionnels (souvent appelés codes QR), soit des codes en 2D faits de modules-carrés noirs dans un carré à fond blanc, destinés à représenter et à transmettre rapidement une information par le biais d’un lecteur de code-barre ou d’un téléphone intelligent.

4. du texte en vidéo (TTV)

Du texte en image au texte en vidéo, il n’y a qu’un pas… et quelques différences technologiques tout de même considérables. Néanmoins pour l’utilisateur, il s’agit encore une fois de formuler une requête textuelle accompagnée ou non d’une ou de plusieurs images ou vidéos existantes pour obtenir une toute nouvelle vidéo – dans ce dernier cas on peut parler de VTV (voir plus bas). L’intégration de ChatGPT à certaines applications rend même possible la création de scénarios à partir d’une simple description d’idées. Le TTV tend donc résolument à se faire multimodal.

Parmi les applications, certaines sont conçues pour générer des vidéos à visées informatives ou « formatives », d’autres marketings ou d’autres encore artistiques. Make-A-Video de Meta et Gen-2 de Runway, font parler d’eux en tant que modèles particulièrement innovants générant de la vidéo. Dans la catégorie des logiciels d’édition de vidéo, Descript, par exemple, est un tout-en-un qui permet de modifier des scènes de vidéos en les réécrivant (TTV) ou encore de cloner sa propre voix pour pouvoir notamment insérer un passage de narration qui serait manquant.

5. de la parole au texte (STT)

À l’inverse du TTS, l’IA générative a considérablement amélioré la conversion de paroles en textes, une possibilité qui permet d’économiser beaucoup de temps lorsqu’on a besoin d’une version écrite, par exemple des discussions qui ont eu lieu lors d’une réunion ou d’une entrevue, de l’information transmise lors d’une conférence ou d’un cours, etc. Il existe de nombreuses applications de STT — Whisper, SpeakAI, Otter.ai, AudioPen, etc. — qui s’utilisent avec des sources audio ou vidéo, qui peuvent traduire plusieurs langues, qui permettent l’édition et le partage, qui identifient les thèmes et les termes importants, et plus.

6. du texte à l’audio (TTA)

À la différence de la catégorie précédente, celle-ci génère à partir d’une simple description sous forme de texte, non pas de la parole, mais de la musique en tous genres ou des effets sonores de qualité, réalistes ou non. Deux IA génératives TTA font parler d’elles : AudioCraft de Meta et MusicML de Google. La première est accessible au public et en code source libre afin de l’améliorer grâce aux nouvelles données provenant des chercheurs et utilisateurs. Elle comprend trois modèles : MusicGen qui génère de la musique, AudioGen qui génère des effets sonores, et EnCodec, un décodeur à haute performance.

Notons qu’AudioCraft comme MusicLM permettent aussi de produire un nouvel audio à partir d’un audio existant (on pourrait donc parler d’audio en audio). MusicML n’est pour sa part pas encore accessible au public, mais ceux qui participent aux essais (il suffit de s’inscrire sur la liste d’attente) obtiennent deux pièces de musique de 10 secondes chacune à partir de leur requête textuelle et sont invités à choisir celle qu’ils préfèrent pour aider à améliorer le modèle. Alors que la durée maximale d’un audio généré par cette TTA de Google et de cinq minutes maximum (Agostinelli et al., 2023), celle de Meta n’est que de 12 secondes. Toutefois, la fréquence d’échantillonnage de celle de Meta est plus élevée que celle de Google, à 32 kHz contre 24 kHz, ce qui procure un son de meilleure qualité, bien qu’il reste en mono.

7. de l’image en texte (ITT)

Depuis plusieurs années déjà, la technologie de reconnaissance optique de caractères (ROC, OCR en anglais) permet de convertir les pixels d’images de textes dactylographiés, manuscrits ou imprimés en textes lisibles par une machine. Elle peut à la fois convertir en image (numériser) des documents physiques (facture, livre papier, plaque d’immatriculation, etc.) et déchiffrer par la suite les textes (lettres et chiffres) de ces images. L’intégration de l’apprentissage profond à cette technologie rend plus efficaces les applications qui l’utilisent, notamment dans le cas de mises en page et de polices non standard.

L’IA générative élargit toutefois les possibilités de l’ITT, en permettant l’analyse d’image sans texte. Une application multimodale comme ChatGPT est en mesure, selon la requête formulée par l’utilisateur, non seulement de décrire une image — un usage fort utile pour améliorer l’accessibilité aux personnes malvoyantes, puisqu’il permet d’obtenir une description orale des images lorsque la synthèse vocale est intégrée —, mais aussi de répondre à des questions au sujet de cette image ou encore de créer un texte à partir de celle-ci. Par ailleurs, il existe des applications d’IA générative qui servent spécifiquement à la description d’images; c’est le cas notamment des « génératrices de légendes », qui intègrent GPT-4 (GPT est le système et ChatGPT, l’interface conversationnelle) et qui peuvent créer des descriptions d’images adaptées à chaque réseau social (accompagnées mots-clés et d’émoticônes).

8. de l’image en image (ITI)

Obtenir une nouvelle image à partir d’une image existante est possible, comme décrit plus haut, à partir d’applications de TTI. Toutefois, un outil d’IA générative spécialisé en conversion d’ITI, comme c’est le cas de Firefly de Photoshop, permet d’explorer un éventail de fonctions avancées spécifiques à l’édition de photo. Parmi les usages les plus courants, on retrouve : le transfert de style (transférer une photographie ordinaire en une peinture dans le style d’un peintre connu, par exemple), la correction (en ajoutant ou en enlevant des éléments à l’aide d’inpainting numérique), la colorisation (mettre en couleur des photographies anciennes en noir et blanc) ainsi que la super résolution (en augmentant la résolution, on améliore la visualisation et la qualité de l’impression). Comme les applications de texte à image, celles d’image à image répondent aux directives textuelles formulées par l’utilisateur. Certaines applications, dont Good AI Art Generator, offrent deux modes de génération d’images, soit le ITI et le TTI.

9. de l’image en vidéo (ITV)

Une vidéo étant constituée d’une série d’images, il existe des outils qui génèrent de la vidéo à partir d’une seule image, comme peuvent aussi le faire les applications TTV. À partir d’une photo, elles peuvent produire un clip de quelques secondes qui répond aux caractéristiques demandées en requête ou aux styles d’animation et effets proposés par l’outil. Les applications tentent de se distinguer les unes les autres. Avec Pika Labs, par exemple, l’utilisateur doit décrire succinctement la scène et le type de mouvement voulu pour animer son image. Cette application permet aussi de générer de la vidéo sans image à partir d’une description, donc en TTV. L’application Animated Drawings est pour sa part conçue pour animer des dessins d’enfants — bien qu’il puisse animer n’importe quel type d’image —, alors qu’InstaVerse se spécialise dans la création de scènes immersives en 3D pour le métavers, ce monde virtuel accessible notamment grâce à la réalité virtuelle. Ce ne sont que quelques exemples pour illustrer la diversité des applications.

10. de la vidéo en vidéo (VTV)

À la manière des outils d’ITI, ceux de VTV permettent de générer une nouvelle vidéo à partir d’une vidéo existante, et d’explorer des fonctions spécifiques à l’édition et à l’animation de vidéo. Les applications Wonder Studio ou Gen-2 de Runway, par exemple, permettent de transformer une scène filmée par une simple caméra de téléphone intelligent en scène de film en y incorporant des personnages, une animation, un éclairage et une composition de son choix. Ici aussi le multimodal a fait son entrée, alors que ces applications intègrent ces autres outils d’IA générative que sont le TTV ou le ITI.

Catherine Meilleur

Auteure:
Catherine Meilleur

Stratège en communication et Rédactrice en chef @KnowledgeOne. Poseuse de questions. Entêtée hyperflexible. Yogi contemplative

Catherine Meilleur possède plus de 15 ans d’expérience en recherche et en rédaction. Ayant travaillé comme journaliste, vulgarisatrice scientifique et conceptrice pédagogique, elle s’intéresse à tout ce qui touche l’apprentissage : de la psychopédagogie aux neurosciences, en passant par les dernières innovations qui peuvent servir les apprenants, telles que la réalité virtuelle et augmentée. Elle se passionne aussi pour les questions liées à l’avenir de l’éducation à l’heure où se pointe une véritable révolution, propulsée par le numérique et l’intelligence artificielle.