En cours, je tiens à montrer l’évolution de l’IA générative, car presque tout le monde pense qu’elle est née avec les Transformers et le ChatGPT. Or, ce n’est pas le cas. L’histoire a commencé bien avant les LLMs.
En vérité, les modèles génératifs existent depuis des décennies. Ce qui a changé dans les années 2010, c’est l’avancement du deep learning, qui a permis aux réseaux neuronaux non seulement de classer ou reconnaître des motifs, mais aussi d’apprendre à générer de nouvelles données: des images, des textes, des sons et des vidéos qui n’existaient pas, mais qui conservent les caractéristiques statistiques des données utilisées lors de l’entraînement.
C’est de ce mouvement que sont apparues différentes familles de modèles génératifs basés sur le deep learning: les GANs (réseaux antagonistes génératifs), les VAEs (autoencodeurs variationnels), les modèles autoregressifs, les modèles de diffusion et, plus récemment, les modèles génératifs basés sur l’architecture Transformer.
Les GANs occupent une place particulière dans cette trajectoire. Proposées en 2014 par Ian Goodfellow et son équipe, elles furent la première architecture d’apprentissage profond capable de générer des images photoréalistes d’une qualité suffisante pour impressionner la communauté scientifique et accélérer considérablement les recherches en IA générative.
Jusqu’alors, les réseaux neuronaux étaient principalement utilisés pour reconnaître des motifs ou faire des prévisions. Les GANs ont démontré qu’ils pouvaient aussi créer du contenu nouveau.
Un GAN est composé de deux réseaux neuronaux profonds, entraînés simultanément. Le premier est le générateur, qui crée des données synthétiques. Le second est le discriminateur, qui tente de distinguer les exemples réels des artificiels. C’est comme mettre en compétition un faussaire et un expert. À mesure que l’un s’améliore, l’autre évolue aussi. Après des milliers voire des millions d’interactions, le générateur apprend à produire des contenus extrêmement convaincants.
Cette approche est assez différente des autres architectures génératives. Les VAEs apprennent une représentation comprimée des données pour les reconstruire ou générer de nouveaux échantillons. Les modèles autoregressifs, dont l’idée précède les Transformers, génèrent le contenu élément par élément, en prédisant le prochain mot, pixel ou jeton. Les modèles de diffusion apprennent à retirer progressivement le bruit d’une image jusqu’à reconstruire un rendu cohérent. Ils produisent des images extrêmement réalistes, et sont plus stables à entraîner et, par conséquent, deviennent la technologie dominante dans des systèmes comme Stable Diffusion et ont influencé des outils comme DALL·E.
C’est grâce aux GANs que l’on a vu certains des premiers grands progrès dans la génération de visages synthétiques, la super-résolution, la restauration de photographies anciennes, la colorisation automatique, le transfert de style et la génération de données synthétiques.
L’un des exemples les plus connus fut StyleGAN, de NVIDIA, qui a révolutionné la génération de visages humains synthétiques. Vous vous souvenez du site ThisPersonDoesNotExist.com ? À chaque mise à jour de la page, il générait le portrait d’une personne qui n’existait pas, mais qui ressemblait à une photographie réelle. Autre exemple : CycleGAN, capable de transformer des photographies en peintures ou de convertir des paysages estivaux en hiver sans images appariées. Déjà SRGAN est devenu une référence en super-résolution, reconstruisant des images de faible qualité avec une grande fidélité.
Les GANs continuent d’être largement utilisées. Elles se retrouvent dans des domaines tels que la restauration faciale (GFPGAN), l’augmentation de résolution (Real-ESRGAN), la génération d’images médicales synthétiques, la création de données pour l’entraînement, le contrôle visuel dans l’industrie, les images satellite, les véhicules autonomes, le cinéma et les jeux vidéo.
En 2017, un autre jalon est apparu : l’article Attention Is All You Need, qui a présenté l’architecture Transformer. Initialement destinée au traitement du langage naturel, elle a introduit le mécanisme d’attention, permettant d’apprendre des relations complexes entre différentes parties des données.
Les Transformers ont mieux évolué avec de grands volumes de données et ont donné naissance aux LLMs et aux modèles multimodaux actuels. De plus, ils ont rendu naturel le contrôle de la génération de contenu par le biais du langage naturel: il suffit d’écrire une invite (prompt) pour orienter du texte, des images, de l’audio, de la vidéo ou du code.
Cela signifie-t-il que les GANs sont devenues obsolètes ? Non. Elles restent extrêmement compétitives dans des applications qui exigent une faible latence, génération en temps réel, super-résolution, restauration d’images, transfert de style et génération de données synthétiques.
L’histoire de l’IA générative montre que les nouvelles architectures éliminent rarement complètement les précédentes. Chacune résout mieux certains problèmes.
Les GANs ont démontré que les machines pouvaient créer du contenu visuel extrêmement réaliste. Les modèles de diffusion ont encore porté la qualité de la génération d’images à un niveau encore supérieur. Et les Transformers ont élargi ce paradigme au texte, au code, à l’audio, à la vidéo et aux systèmes multimodaux.
Comprendre cette évolution aide à comprendre que le ChatGPT n’a pas marqué la naissance de l’IA générative. Il représente seulement le chapitre le plus récent d’une trajectoire bâtie au fil de nombreuses années de recherche en apprentissage profond.




