Publié le 07/03/2024 Par Abdelkader HAMADI

Une analyse critique par Sevil Caron et Abdelkader Hamadi

IA générative alliance entre l'homme et la machine couleur

L’intelligence artificielle continue de prendre de l’espace et de s’imposer comme un outil incontournable dans de nombreux domaines avec des résultats impressionnants. En 2020, OpenAI présentait ainsi son chatbot révolutionnaire nommé ChatGPT. Une véritable révolution pour certains, ou du moins un tournant majeur dans l’ère de l’intelligence artificielle. Pour autant, la technologie ne s’avère la solution miracle annoncée. Présentation des risques et limites de l’IA générative. 

Introduction à l’IA générative

ChatGPT est une application basée sur un modèle de langage conversationnel développé par OpenAI, en l’occurrence, l’architecture GPT (Generative Pre-trained Transformer), plus précisément sa version GPT-3. Cet outil permet de fournir des réponses contextuellement cohérentes et informatives dans un scénario de conversations écrites interactives. Depuis sa sortie, OpenAI continue de publier des versions améliorées avec des résultants époustouflants.

Par conséquent, ChatGPT a réussi à convaincre le monde entier de sa capacité à être exploité dans divers secteurs tels que l’assistance client, la recherche d’information, la formation et l’éducation, l’analyse de données, la synthèse, la production de contenu, le test et le débogage, l’e-commerce, etc.

L’origine de l’IA générative

Toutefois, il est à noter qu’OpenAI n’est pas le précurseur dans le domaine de l’IA générative. En effet, Google a bien réagi après la présentation de ChatGPT en rappelant qu’il était sur cette piste bien avant OpenAI grâce à son modèle de langage BERT. En réalité, la naissance de cette technologie est passée par plusieurs étapes. Plusieurs travaux ont ainsi été réalisés par diverses institutions de recherche, des entreprises technologiques et des universités. À la clé : la capacité à concevoir les bases du concept de réseaux de neurones profonds, de la génération d’images, de la traduction automatique, et d’autres domaines qui ont contribué à l’évolution de l’IA générative.

Ainsi, des chercheurs tels que Ian Goodfellow, Yoshua Bengio ou d’autres ont joué un rôle essentiel dans le développement de techniques de génération de données réalistes, notamment avec l’introduction des réseaux de neurones génératifs antagonistes (GAN) en 2014. Ce qui n’enlève en rien le mérite d’OpenAI qui a joué un rôle significatif et a marqué des avancées importantes dans le domaine de l’IA générative.

Les limites de l’IA générative

Les avantages de l’intelligence artificielle générative ne sont plus à démontrer. En effet, on n’arrête plus de vanter les performances des modèles génératifs en les présentant comme des outils révolutionnaires. Malgré quelques critiques quant aux performances des premiers modèles de GPT portant sur quelques erreurs émises dans certains secteurs (notamment le droit et la santé) et la difficulté à comprendre le contexte, il est rarement effectué une analyse critique vis-à-vis des répercussions négatives causées par ce type d’outil.

C’est pourquoi nous allons explorer dans cet article certains aspects de l’IA générative en nous focalisant sur les inconvénients, les risques et les dangers cachés derrière cet outil. Cet article a également pour but d’ouvrir le chemin vers une pensée critique de l’utilisation de l’IAG dans la vie professionnelle et personnelle. Il est à noter que cette analyse est réalisée par rapport au modèle GPT-3 d’OpenAI. À noter que certaines remarques pourraient ne pas concerner les nouvelles versions du modèle.

Quelle est la principale caractéristique d’une IA générative ?

L’IA générative (IAG), ou Generative AI en anglais, marque une avancée de l’intelligence artificielle qui, prenant des données en entrée de différents types, est capable de générer des contenus sans intervention humaine en sortie. Derrière ce système, nous pouvons constater des algorithmes de deep learning très poussés qui sont entraînés sur tout type de données (textes, images, vidéos, musiques…) en très grande quantité.

Objectif : être capable de générer des réponses aux prompts des utilisateurs. Pour rappel, un prompt est une consigne rédigée qui oriente le modèle sur la nature de la tâche, ainsi que le fond et la forme de la réponse attendue. En résumé, c’est la qualité d’un prompt qui définit la réponse donnée. Si le prompt est bien décrit et précis, la réponse sera plus satisfaisante.

À titre d’exemple, nous pouvons trouver facilement des chatbots ou des assistants sur la plupart des sites e-commerce. Ce sont des outils qui sont mis en place pour répondre rapidement aux questions des utilisateurs, et donc améliorer leur expérience.

Comment fonctionne une IA générative ?

La technologie récente pour générer ces textes repose sur les fameux grands modèles de langage (Large Language Model ou « LLM » en anglais) utilisés pour le traitement et la génération de textes. Ils sont capables de répondre aux besoins des utilisateurs pour résumer un texte, ou encore de leur répondre en temps réel.

De plus, nous ne pouvons pas parler de l’IAG sans parler de ChatGPT qui est aussi basé sur un LLM nommé GPT (Generative Pretrained Transformers). Ces derniers utilisent des techniques de Transformers, incluant des encodeurs et des décodeurs pour produire des contenus puissants.

Les Transformers

Les Transformers sont apparus pour la première fois dans l’article intitulé « Attention is all you need » publié par Ashish Vaswani. Il s’agit de modèles de séquence à séquence (seq2seq) qui utilisent le mécanisme d’attention. Ce dernier aide le réseau à comprendre à quel mot de la séquence d’entrée il faut porter plus d’attention quand on traite un mot de la séquence de sortie. Par exemple, si le modèle a prédit le mot « chaise » en sortie de la séquence, il est fort probable qu’on trouve les mots « table » ou bien « bureau » qui ont un poids élevé dans la séquence d’entrée.

Les réseaux de neurones récurrents

Avant l’arrivée des Transformers, les réseaux de neurones récurrents (Reccurent Neural Network – ‘‘RNN’’) étaient utilisés pour le traitement séquentiel de la langue. Ces réseaux ne pouvaient pas bien gérer les séquences longues car ils oubliaient les séquences qui étaient présentées au début. Les Transformers sont alors arrivés pour palier à ce problème.

Voici l’architecture des Transformers publiée dans cet article :

architecture des Transformers

Sur cette figure, l’encodeur est représenté à gauche du schéma et le décodeur à droite. Les encodeurs reçoivent des vecteurs de mots en entrée et la couche “Positional Encoding” ajoute l’information liée à l’emplacement des mots dans la séquence. Ainsi, les mots les plus proches sémantiquement auront des vecteurs plus proches.

C’est cette particularité qui a rendu les LLMs si forts pour la génération de texte et le traitement des données textuelles. Il faut aussi savoir qu’en entrée de ces modèles, les textes sont transformés en vecteur. C’est en réalité cette représentation vectorielle qui est prise en compte par le modèle. Un chatbot conçu avec ces technologies n’a donc qu’une compréhension mathématique d’un texte. Soit tout le contraire d’un humain qui est capable de distinguer une phrase et un morceau de code. Cependant, il est capable de traduire un texte, résoudre des problèmes mathématiques complexes ou encore d’écrire un code informatique pour le design d’un site. 

L’apport de l’IA générative

Les cas d’usages liés à l’intelligence artificielle générative sont nombreux. S’il est difficile de dresser une liste exhaustive, voici néanmoins quelques-uns des plus fréquents :

  1. Traduction automatique
  2. Résumé des articles
  3. Génération d’articles scientifiques
  4. Génération de codes informatiques dans des langages variés
  5. Génération de contenus publicitaires personnalisés
  6. Génération de contenus littéraires
  7. Génération de contenus vidéo
  8. Génération d’histoires
  9. Engagement des conversations avec un humain
  10. Composition d’une musique
  11. Génération des voix de synthèse

Les avantages de l’IA générative

Les avantages de ces IA génératives sont nombreux. Par exemple, nous avons tous déjà reçu des emails automatiques de confirmation à la suite d’une commande passée sur un site e-commerce, ou après avoir candidaté pour un poste. Ces cas d’usage ont limité les coûts de main d’œuvre pour les entreprises. Cela évite aussi les travaux répétitifs pour les employés qui peuvent se contenter d’intervenir uniquement en cas d’anomalie dans les processus.

Le secteur médical et pharmaceutique

Pour la recherche et la découverte des nouveaux médicaments, les grands groupes pharmaceutiques comme Sanofi commencent également à utiliser l’IAG pour tester de nouvelles molécules et leurs phénotypes. Ces recherches sont en temps normal très compliquées et chronophages, mais grâce à l’IAG, les avancées en médecine peuvent accélérer.

Il existe aussi des intelligences artificielles générative (IAG) qui donnent des conseils ou des diagnostics médicaux. Cette utilisation est d’ailleurs un sujet de débat parmi les professionnels de santé. En effet, faut-il se fier aux conseils d‘une IAG pour améliorer sa santé ? Pour ce domaine en particulier où la question de la confidentialité des données se pose, nous pouvons en effet penser à cette problématique : sur quelles données ces modèles sont-ils entraînés ? Sont-elles représentatives ? Sachant que le problème principal reste l’aspect juridique lié à un mauvais diagnostic.

Le tourisme et les transports

Pour donner un autre cas d’usage pratique de ces outils, dans le cas d’un voyage à l’étranger, nous avons tous déjà eu recours à un site de traduction pour pouvoir pallier la barrière de la langue d’une manière provisoire et rapide.

Les voix de synthèse sont largement utilisées dans les transports en commun pour annoncer les destinations et les directions. Les solutions de synthèses vocales peuvent aussi donner accès aux personnes avec des difficultés visuelles ou des troubles d’apprentissage la possibilité d’écouter les contenus du web.

Le monde de l’entreprise

Les IAG sont donc largement utilisées dans les entreprises pour faciliter et améliorer la rapidité des actions. Par exemple, lorsqu’il s’agit de générer les rapports et les synthèses, ou bien encore résumer des réunions internes.

Il est possible aussi de créer des programmes conversationnels (chatbots) en interne en tant qu’assistant RH. Ces outils pourront ainsi répondre aux questions fréquentes des employés d’une manière plus personnalisée.

Nous pouvons constater ainsi le large éventail des cas d’usages des IAG dans tous les domaines. Cependant, comme tout outil qui a été conçu pour un bienfait, il peut devenir dangereux et risqué s’il est mal exploité. De la même manière, les outils basés sur l’IA générative qui deviennent largement utilisés ne sont pas à l’abri d’une mauvaise utilisation et peuvent par conséquent présenter certains risques et inconvénients comme décrits dans la partie suivante.

Les risques et les enjeux derrière l’IA générative

L’IAG est actuellement un sujet de débat dans les entreprises. Ces dernières, qui veulent toujours bénéficier des nouvelles technologies pour se montrer innovantes, sont confrontées à des problèmes liés aux cyberattaques et à l’éthique de ces outils très en vogue. Mais quels sont les dangers liés à ces applications qui peuvent ainsi freiner la tentation de les utiliser à toutes les sauces, en entreprise comme dans la société ? Faut-il vraiment se méfier de ces outils pourtant très prometteurs à l’avenir ?

Les risques de sécurité informatique

L’injection de Prompts (Prompts injection)

Pour aborder ces sujets, nous avons regardé une vidéo de Michaël de Marliave (Micode) qui explique les failles qui pourront exister dans les IAG au niveau de la cybersécurité. Dans cette vidéo intitulée ChatGPT vient de devenir dangereux, nous pouvons constater que, bien évidemment, ChatGPT peut aussi être la victime de cyberattaques.

Imaginons que nous voulons donner un texte en entrée de ChatGPT pour le résumer. Si dans ce texte donné, il existe des instructions cachées à exécuter, ChatGPT va le faire. Ces instructions peuvent être des morceaux de code glissés entre les phrases qui peuvent perturber son comportement.

capture de la vidéo de Micode

Dans l’exemple visible dans la capture vidéo ci-dessus, ChatGPT va sortir quelques mots-clés liés à l’article et, à la fin, va afficher les injures, comme demandé par les instructions cachées dans l’article.

Dans ce cas particulier, on parle de « prompt injection », dont voici la définition sur le site de Futura :

« Cette attaque consiste à manipuler les requêtes pour contourner la sécurité intégrée au LLM, notamment en s’appuyant sur le fait que les IA ne savent pas distinguer entre les requêtes et les données nécessaires à l’exécution de la requête. »

L’injection de prompts peut être assimilée à l’injection SQL qui consiste à injecter du code SQL malveillant dans les requêtes SQL de l’application. Cela pourrait permettre à un attaquant d’accéder, de modifier ou de supprimer des données dans la base de données, ainsi que d’exécuter des opérations non autorisées.

Les prompts injectés pourront être cachés sur des pages web ou dans des articles sur internet. En demandant à un chatbot de trouver un article sur une thématique particulière, il le téléchargera et, si l’on veut son résumé ou tout autre traitement sur cet article, les prompts injectés par les malwares seront exécutés à notre insu pour avoir accès à nos informations personnelles. Il leur est également possible de demander de manière indirecte et subtile des informations confidentielles comme les mots de passe ou le numéro de compte, ou bien encore des informations non accessibles pour des raisons d’éthique tel que le fait de demander de créer une bombe.

Comme évoqué dans la partie précédente, si on contextualise notre demande d’une manière plus délicate, nous pouvons contourner certaines éthiques des outils de l’IAG. Si on pose une question directe sur la fabrication d’une bombe, il est possible qu’une IAG ne réalise pas notre demande. Si on englobe cette demande sous la forme d’une histoire, nous aurons alors plus de chance d’y parvenir.

Ce problème de prompt injecté pourrait être résolu en imposant de différencier les instructions des données dans les prompts. En effet, dans les outils basés sur l’IA générative, on a généralement un seul champ pour rédiger le prompt. Ainsi, on ne différencie pas les instructions des données.

Augmentation des compagnes de phishing

L’évolution de l’IAG a facilité la production d’emails frauduleux. Si à une époque nous pouvions facilement distinguer un email de phishing par ses fautes d’orthographe ou grammaticales, actuellement, avec les avancées de l’IAG, la production de ces emails est plus facile et plus crédible. En effet, comme l’IAG produit moins de fautes dans le contenu des emails, ces derniers sont tout de suite plus crédibles. Par conséquent, plus de personnes seront victimes de ces phishings.

Les enjeux sociaux

La paresse intellectuelle

Depuis la sortie de ChatGPT, des personnes de différentes catégories d’âge ont commencé à l’utiliser. Cela ne pose pas de problème à partir du moment où une utilisation responsable est appliquée. Cependant, on constate que le recours à ces outils devient quasiment un réflexe. D’autre part, on remarque que, malgré une sensibilisation sur la possibilité d’obtenir des réponses erronées, la majorité des individus non experts utilisant ChatGPT utilise les réponses sans en vérifier la véracité.

 Ce constat soulève alors un certain nombre de questions. On pourrait par exemple se demander ce qui pourrait arriver si on omettait l’effort personnel, l’esprit critique et le doute qui ont permis jusqu’ici de corriger les erreurs et de continuer à accéder aux faits passés. De même, quel degré de confiance devrons-nous accorder à ces technologies sachant qu’une manipulation par une autorité ou une institution se cachant derrière l’outil utilisé n’est pas à exclure ?

 Autre sujet : si malgré la disponibilité des moyens et des sources d’information, peu font l’effort de vérifier la véracité des informations, qu’arrivera-t-il avec des outils donnant des réponses dont on ne connaît pas leurs sources ? En effet, les nouvelles générations subissent une dépendance accrue à la technologie et avec la facilité offerte par l’IAG, il n’est pas à exclure que l’on se retrouve un jour avec une communauté dénuée de tout effort intellectuel et de réflexion, incapable par conséquent de résoudre des problèmes, ou de toutes capacités physiques nécessaires pour réaliser certaines tâches. Ces outils ne vont-ils pas ainsi créer une génération d’humains totalement dépendants des machines ? La question mérite d’être posée.

 En parallèle, le plagiat est un autre problème tant il devient de plus en facile de copier, entraînant une mauvaise formation des étudiants liée à une évaluation erronée de leurs travaux. Pourquoi ? Parce que leurs qualités sont biaisées par l’utilisation de l’IAG !

 Il est donc important de sensibiliser les utilisateurs et même les éducateurs à ces problèmes et de les inciter à respecter une utilisation responsable de ces outils. En effet, il est nécessaire d’expliquer l’importance de la compréhension conceptuelle et de former les individus à utiliser l’IA générative, typiquement à l’école ou à l’université. Comment ? En se focalisant sur l’effort personnel et les compétences analytiques et critiques, et en mettant en place des évaluations portant sur ces aspects.

L’endoctrinement et la manipulation sociale

Hormis les problèmes liés au monde informatique, ces outils d’intelligence artificielle pourront avoir des impacts sociaux. Ils peuvent influencer les opinions publiques sur des sujets variés. Selon la députée et activiste allemande Anke Domscheit-Berg (dans une émission diffusée sur Arte), les personnes ont tendance à juger la crédibilité d’une information en fonction de la façon dont elle est représentée. Plus les réponses données par l’IAG sont éloquentes, plus elles seront jugées crédibles et donc, plus nous allons croire à ces informations sophistiquées.

 D’autre part, l’IA générative pourrait être utilisée à des fins de manipulation des individus. En effet, l’automatisation de la création de contenu peut être utilisée pour influencer l’opinion publique en créant délibérément des histoires, des commentaires ou des discours qui soutiennent des points de vue particuliers. De façon identique, ces outils peuvent être exploités pour créer du contenu trompeur ou désinformatif. Il faut donc faire attention aux contenus diffusés et vérifier les informations avant d’émettre un jugement au risque.

Les fake news

La propagation des fake news est aussi un autre aspect inquiétant de l’IAG. La vitesse à laquelle nous recevons des informations ne nous permet pas de bien vérifier la véracité ni la source de celles-ci. Bien avant la vérification, ces informations sont diffusées sur tous les réseaux sociaux. Hormis les problèmes de la propagation des fake news et la pollution des opinions publiques, nous pouvons évoquer aussi que les outils de l’IAG sont entraînés sur des masses de données sur internet.

Il est donc possible que ces fausses informations puissent rentrer dans le cycle des entraînements des outils de l’IAG. Il suffit de se rappeler de l’échec de Tay, l’intelligence artificielle de Microsoft qui, en 2016, était devenue raciste en moins de vingt-quatre heures, juste en s’entraînant en continu sur les tweets des utilisateurs qui testaient ses limites.

L’IAG a aussi montré ses talents en art. Boris Eldagsen, un photographe allemand, a reçu le prix du Sony World Photography Awards, alors que la photo avait été générée par une IA. Il a refusé ce prix pour sensibiliser l’opinion publique sur l’IAG. Nous pourrons aussi réfléchir sur le problème du droit d’auteur dans ces cas particuliers. Dans le cas d’une œuvre d’art créée par l’IAG en imitant un artiste connu, qui sera alors le propriétaire de cette œuvre ? Le véritable artiste ne doit-il pas donner une autorisation pour cette imitation ?

En générant des romans et des histoires courtes, les IAG ont fait leur entrée dans la littérature. Résultat, les scénaristes d’Hollywood étaient en grève en juillet 2023 de crainte de se faire remplacer par ces dernières. Parmi leurs revendications : ils réclamaient une limitation de l’utilisation de l’intelligence artificielle dans leur métier.

Conclusion

Nous avons évoqué quelques avantages et inconvénients des IAG. Néanmoins, nous n’avons pas abordé tous les aspects d’utilisation de ces outils. L’IAG peut être utile et très pratique pour résoudre les tâches répétitives dans les entreprises.

La bonne nouvelle est que les outils de l’IAG sont en train de se perfectionner jour après jour pour résoudre les failles de cybersécurité et donner de plus en plus de crédibilité à leur contenu. Mais il faut toujours être averti et garder son esprit critique malgré toutes les avancées. Il est toujours probable de tomber dans les pièges des cyberattaques ou de trouver des contenus erronés générés par ces outils.

C’est pourquoi il est essentiel que les dirigeants des entreprises puissent mettre en place des moyens afin d’avertir les employés des dangers liés à l’utilisation de ces IAG. En parallèle, il s’avère également nécessaire d’informer sur les risques et les avantages de ces outils et de leurs applications avant de généraliser leur utilisation dans l’entreprise. Enfin, il est tout aussi important de sensibiliser les professeurs et autres acteurs de l’éducation pour former les étudiants à une utilisation responsable de ces outils. Un utilisateur averti mettra en effet plus en question le résultat et sera mieux capable d’éviter les pièges, tout en bénéficiant des bienfaits de ces outils et en évitant leurs risques majeurs.

Call to Action newsletter

Vous avez aimé cet article ?

Abonnez-vous à notre newsletter pour ne rien rater de l’actualité Tech et Finance.

Sevil ZEYNALI

Co-auteur

Sevil CARON

Titulaire d’un master spécialisé en traitement automatique du langage naturel (NLP), Sevil se passionne pour l’exploration de la langue et le traitement des données textuelles. Depuis 2016, elle évolue dans l’univers de la data, domaine dans lequel elle a su démontrer une expertise et une passion constantes.

En 2022, elle a rejoint Meritis en tant que Data Scientist, un poste qui lui a permis de mettre à profit ses compétences en science des données. Avant cela, elle a commencé sa carrière sur le projet ISTEX initié par le CNRS, puis rejoint Meritis pour une mission chez Valeo sur le traitement des signaux. Elle a continué à la SNCF où elle a apporté son expertise dans le domaine du traitement d’images. À travers ces expériences, elle a non seulement approfondi sa maîtrise technique mais a également développé une approche analytique et créative face aux défis complexes du traitement de l’information.

Pas encore de commentaires

Publier un commentaire

Abdelkader HAMADI

Auteur

Abdelkader HAMADI

Ingénieur en informatique en 2008, puis Docteur en Informatique de l'université de Grenoble depuis novembre 2014. J'ai enchaîné plusieurs postes d'enseignement et de recherche de 2013 à 2019. Je suis spécialisé dans les domaines de l'intelligence artificielle, la recherche d'information, la vision par ordinateur et de la data. J'ai rejoint Meritis à la fin de 2019 pour travailler en tant qu'ingénieur de conseil en Recherche et Développement. Je travaille actuellement sur une mission à SNCF Réseau en tant que chercheur sénior sur un projet innovant visant à développer des solutions de surveillance automatique du réseau ferroviaire par la fibre optique. Je suis responsable de la practice data-science chez Meritis et responsable de l'équipe data-science chez SNCF Réseau.