L’IA générative a connu un essor spectaculaire ces dernières années. Des modèles comme GPT-4 ou Claude 3 ont démontré des capacités impressionnantes pour rédiger des textes, générer des images ou répondre à des questions complexes. Pourtant, cette croissance s’accompagne d’un problème crucial : la disponibilité des données nécessaires à l’entraînement de ces modèles. Menace réelle ou simple limite théorique ? Nous faisons le point dans cet article.

Selon Epoch AI, d’ici 2033, le volume de données requis pourrait atteindre la totalité des contenus publics disponibles en ligne, indiquant une saturation imminente. Cette situation force les chercheurs à repenser les méthodes d’apprentissage. Au lieu de simplement accumuler toujours plus de textes, les modèles devront intégrer des stratégies plus efficaces, telles que l’apprentissage à partir de données synthétiques, le renforcement par des retours humains ou l’exploitation de corpus spécialisés de haute qualité.
L’objectif est de continuer à améliorer les performances des modèles tout en réduisant la dépendance aux données publiques, et en garantissant des informations fiables et pertinentes.
La pénurie de données : problème réel ou simple imagination ?
Dans une étude publiée à ICLR 2024, Villalobos et al. examinent la disponibilité des données textuelles publiques générées par des humains et identifient une limite potentielle pour l’entraînement des LLM. Ils estiment que le stock effectif de texte humain public, après filtrage et déduplication, est d’environ 300 trillions de tokens. Si les tendances actuelles se maintiennent – des modèles toujours plus volumineux et des datasets toujours plus grands –, les grands modèles de langage pourraient atteindre cette limite dans quelques années.
Cette situation pose un problème pour la progression des performances car l’augmentation continue de la taille des modèles et des données uniques pourrait ne plus produire de gains proportionnels. L’étude de Muennighoff et al., publiée à NeurIPS 2023, fournit un soutien empirique à cette idée : lorsque les datasets sont limités, la répétition des mêmes tokens sur plusieurs époques entraîne une stagnation de la perte, même lorsque la taille du modèle et le calcul disponible augmentent.
Dans une vision opposée publiée en 2023, les auteurs de l’article ‘‘The Web Can Be Your Oyster for Improving Large Language Models’’ montrent que le web peut continuer à fournir de nouvelles données publiques exploitables pour l’entraînement des LLM. Selon eux, même si certaines sources textuelles sont limitées, l’accès continu à des contenus web actualisés permet de prolonger la disponibilité de données uniques et de retarder l’apparition d’une stagnation des performances. Cette analyse nuance donc l’alerte de pénurie avancée par Villalobos et al., en indiquant qu’une partie du web reste exploitable pour l’entraînement futur.
Deux théories opposées
La littérature actuelle présente deux visions complémentaires mais opposées. D’un côté, il existe un plafond potentiel lié à la quantité finie de données humaines uniques, confirmé empiriquement dans des scénarios contraints. Ce plafond est d’autant plus critique que l’évolution des LLM vers des architectures toujours plus larges s’accompagne de besoins croissants en données d’entraînement. De l’autre, l’exploitation continue du web offre une source supplémentaire qui pourrait repousser cette limite.
La conclusion à en tirer est que, bien que le risque de stagnation existe, son ampleur dépend fortement de la capacité des chercheurs à identifier et à intégrer des sources de données publiques nouvelles et diversifiées pour l’entraînement des LLM.
Le problème de pénurie de données n’est pas nouveau
Dans l’étude ‘‘Mitigating Data Scarcity in Semantic Parsing across Languages with the Multilingual Semantic Layer and its Dataset’’ (2024), les auteurs affirment que la data scarcity est un « défi prévalent », notamment pour des langues non‑anglophones ou à ressources limitées. Ils expliquent que l’insuffisance de données annotées rend l’entraînement de systèmes de parsing sémantique particulièrement difficile à grande échelle, surtout lorsqu’on vise plusieurs langues.
De même, la revue systématique ‘‘Overcoming Data Scarcity in Generative Language Modelling for Low ‑ Resource Languages: A Systematic Review’’ (2025) analyse 54 travaux récents et confirme que la pénurie de données, tant en volume qu’en diversité, limite l’efficacité des modèles génératifs pour ces langues sous‑représentées.
Ces travaux récents confirment que la data scarcity n’est pas un problème ponctuel : elle perdure dès qu’on s’éloigne des langues ou des domaines majoritaires (comme l’anglais), ce qui freine les progrès des LLM dans des contextes diversifiés, multilingues ou spécialisés.
Que se passe-t-il si ce scénario se réalise ?
Les données accessibles sur le web ne sont pas illimitées. Epoch AI estime que le stock effectif de textes humains exploitables s’élève à environ 300 trillions de tokens. Une fois ce stock épuisé, il deviendra de plus en plus difficile pour les modèles de trouver de nouveaux exemples pertinents.
Plusieurs facteurs aggravent cette situation. D’abord, la répétition des contenus réduit leur valeur pour l’apprentissage. Ensuite, le filtrage strict visant à exclure les contenus offensants, dupliqués ou soumis aux droits d’auteur diminue encore le volume exploitable. Enfin, beaucoup de « nouveaux » contenus ne sont que des reformulations de textes déjà existants, limitant la diversité des données.
Ces contraintes entraînent plusieurs conséquences :
- Biais accrus : les modèles reproduisent et amplifient les biais présents dans les données limitées.
- Perte de créativité : avec moins de diversité, les réponses deviennent homogènes et moins innovantes.
- Stagnation des performances : sans nouvelles données de qualité, il devient difficile d’améliorer les modèles et de corriger leurs lacunes.
La manière dont cette pénurie affecte les modèles dépend ensuite de leur nature. Les modèles open source, accessibles au public et dont le code et les corpus peuvent être librement utilisés et modifiés, sont soutenus par des initiatives telles que Hugging Face. Celles-ci développent des corpus de haute qualité, tels que FineWeb, afin de maintenir la diversité et la performance des systèmes open source.
En revanche, les modèles propriétaires, développés et contrôlés par des entreprises comme OpenAI et Microsoft, restent fermés et nécessitent d’importants investissements dans les infrastructures de calcul pour entraîner leurs modèles à grande échelle. Or, les revenus générés restent parfois inférieurs aux attentes, ce qui soulève le risque d’une bulle financière. Cette divergence montre que la raréfaction des données influence non seulement la qualité et la robustesse des modèles, mais aussi le modèle économique et la stratégie adoptée par les différents acteurs.
Cette situation pourrait être comparée à une « fièvre de l’or », où une ressource finie est exploitée jusqu’à épuisement, menaçant la robustesse et la fiabilité des IA génératives.
Quels facteurs favorisent ce scénario ?
Historiquement, les IA génératives se sont principalement nourries de contenus web publics. Mais une part croissante de ces sources devient désormais inaccessible. Les fichiers « robots.txt » et autres restrictions limitent l’accès des robots d’indexation, notamment sur des sites majeurs tels que les plateformes d’actualité ou les forums spécialisés.
L’accès aux données publiques se heurte également à des contraintes techniques. La Data Provenance Initiative souligne que les robots d’OpenAI sont guidés par ces fichiers « robots.txt » qui leur indiquent quelles pages explorer et lesquelles doivent rester invisibles. Selon leurs analyses, ces restrictions représentent environ 26 % du temps d’indexation, ce qui réduit encore la quantité de données réellement exploitables.
Cette limitation touche surtout les sources de grande valeur : sites d’actualité, forums ou plateformes sociales qui regorgent d’informations riches mais protégées. Face à cette situation, les modèles open source comme les modèles propriétaires doivent trouver des alternatives pour continuer à progresser, tout en préservant la qualité des données utilisées.
Quelles alternatives ?
Face à la pénurie de données disponibles pour l’entraînement des modèles d’intelligence artificielle, plusieurs stratégies se dessinent pour pallier cette limitation.
Utiliser des données synthétiques, propriétaires et utilisateurs
Les données synthétiques, qu’il s’agisse de textes ou d’images générés artificiellement, permettent d’augmenter le volume d’informations accessibles, mais soulèvent des questions quant à la qualité, la diversité et la fiabilité de ces contenus. Les données propriétaires, issues des ressources internes d’entreprises comme Goldman Sachs, offrent une pertinence et une sécurité accrues des informations utilisées pour nourrir les modèles. Enfin, les données utilisateurs, collectées lorsque les utilisateurs ne désactivent pas certains paramètres ou ne refusent pas explicitement l’usage de leurs informations, constituent également une ressource importante, comme l’illustrent plusieurs cas récents impliquant Meta.
Cette collecte reste encadrée par des campagnes de sensibilisation et des réglementations strictes, telles que le RGPD et le projet IA Act, qui imposent des règles de consentement, de transparence et de protection des données personnelles. Ensemble, ces approches montrent que l’industrie doit trouver un équilibre entre innovation technologique et respect des cadres légaux et éthiques pour permettre une évolution responsable et sécurisée de l’IA.
Risque de collapse : quand les modèles s’auto-entraînent
Pour compenser le manque de données humaines, certaines entreprises utilisent des contenus générés par les modèles eux-mêmes. Mais cette pratique peut provoquer un collapse du modèle. Progressivement, les modèles perdent les variations rares des données originales, deviennent influencés par leurs propres productions et produisent des réponses de plus en plus homogènes ou incohérentes.
À chaque génération, la qualité des réponses diminue et la perplexité du modèle augmente. Pour limiter ce risque, les chercheurs combinent données humaines et synthétiques, ou restreignent l’usage exclusif de données générées. Cependant, le collapse reste un danger réel, surtout dans un contexte de raréfaction des données publiques.
Dans l’étude “How Bad is Training on Synthetic Data? A Statistical Analysis of Language Model Collapse’’ (Seddik, Chen, Hayou, Youssef, Debbah, 2024), les auteurs formalisent le phénomène de ‘‘model collapse’’ : quand un modèle est entraîné uniquement sur des données générées par un modèle précédent (données synthétiques), la distribution apprise par le modèle dérive, et les « queues » (événements rares, diversité, détails fins) de la distribution originale se perdent. Cela démontre qu’un entraînement purement synthétique conduit inévitablement à cette dégradation.
Toutefois, un mélange judicieux de données réelles et synthétiques, avec une proportion de synthétiques inférieure à un seuil critique, peut éviter le collapse. Dans ‘‘Strong Model Collapse’’ (Dohmatob, Feng, Subramonian, Kempe, 2024), une étude théorique et expérimentale dans un cadre de réseaux neuronaux montre qu’un pourcentage même faible de données synthétiques (par exemple 1 %) dans le dataset peut suffire à déclencher un collapse de modèle. Cela signifie que l’augmentation de la taille du dataset ne conduit plus à de meilleurs résultats. Les observations montrent également que des modèles plus grands peuvent accentuer ce phénomène.
Dans ‘‘Collapse or Thrive? Perils and Promises of Synthetic Data in a Self ‑ Generating World’’ (Kazdan, Schaeffer, Dey, Gerstgrasser, Rafailov, Donoho, Koyejo, 2024), les auteurs explorent plusieurs workflows d’apprentissage utilisant des données synthétiques dans différents contextes (modèles statistiques, estimation, fine‑tuning de modèles de langage). Ils confirment que si l’on remplace entièrement les données réelles par des données synthétiques, le collapse se produit systématiquement. En revanche, dans les scénarios d’accumulation – c’est‑à‑dire conserver les données réelles tout en ajoutant des données synthétiques – la dégradation reste lente, voire modérée, et la stabilité peut être maintenue selon le cadre.
Few-shot learning / self-learning
Parmi les solutions pour pallier la pénurie de données, les approches d’auto-apprentissage et d’apprentissage avec peu d’exemples (few-shot learning) occupent une place centrale. L’auto-apprentissage permet aux modèles de générer eux-mêmes des données annotées à partir d’exemples existants, enrichissant progressivement leur corpus sans nécessiter d’intervention humaine massive. Quant au few-shot learning, il offre la capacité d’apprendre efficacement à partir d’un nombre très limité d’exemples, en tirant parti de connaissances déjà acquises sur d’autres tâches ou domaines.
Ces méthodes permettent ainsi de réduire la dépendance à de grands volumes de données annotées, tout en conservant une certaine diversité et pertinence dans l’apprentissage du modèle, offrant une piste prometteuse pour continuer à améliorer les IA génératives malgré la raréfaction des sources accessibles.
Dans l’étude ‘‘Improving In-Context Few-Shot Learning via Self-Supervised Training’’ (NAACL 2022), Chen et al. montrent qu’en ajoutant une étape d’apprentissage auto‑supervisé (“self ‑ supervised”) entre le pré‑entraînement et l’utilisation de “few ‑ shot”, on peut améliorer la capacité des modèles à apprendre de quelques exemples.
Dans ‘‘Zero-Shot Text Classification via Self-Supervised Tuning’’ (ACL, 2023), Liu et al. proposent un paradigme où un modèle est ajusté (tuning) sur des données non étiquetées via un objectif auto‑supervisé, ce qui lui permet ensuite de faire de la classification de texte en zero‑shot sur des tâches non vues.
Dans ‘‘SEML: Self ‑ Supervised Information ‑ Enhanced Meta ‑ learning for Few ‑ Shot Text Classification’’ (2023), les auteurs combinent le méta‑apprentissage ‘‘ few ‑ shot’’ et l’auto‑supervision sur un large corpus non étiqueté pour améliorer la généralisation, ce qui réduit le besoin en données labellisées.
Dans ‘‘Small Language Models Are Good Too: An Empirical Study of Zero-Shot Classification’’ (LREC‑COLING, 2024), l’étude montre que des modèles de langue modestes (quelques dizaines de millions de paramètres) peuvent, en “zero ‑ shot”, atteindre des performances comparables à de plus gros modèles, ce qui souligne qu’une taille modeste avec un bon algorithme peut suffire quand les ressources de données sont limitées.
Ces travaux montrent différentes manières de pallier la pénurie ou l’absence de données labellisées, telles que l’auto‑supervision, le méta‑apprentissage, le tuning sur des données non labellisées ou l’utilisation de petits modèles. Ils démontrent également qu’il est possible d’obtenir des performances significatives même avec peu ou pas de données annotées.
Perspectives : vers une IA plus autonome et économe en données
Pour surmonter ces défis, les chercheurs explorent des modèles plus économes en données et des agents capables d’apprendre en continu sans supervision constante. Ces stratégies pourraient permettre aux modèles d’IA de progresser tout en réduisant leur dépendance aux vastes corpus de données humaines, ouvrant la voie à des systèmes d’IA plus flexibles, résilients et durables.
Conclusion : redéfinir la valeur de la donnée
Le scénario de pénurie de données reste théoriquement possible, mais son occurrence n’est pas inéluctable. Si les sources publiques continuent de se restreindre et que la génération de contenus nouveaux ne compense pas suffisamment, les modèles pourraient effectivement se retrouver limités dans leur apprentissage. Cependant, les stratégies comme l’auto-apprentissage, le few-shot learning ou le recours à des corpus spécialisés offrent des solutions pour atténuer ce risque. Ainsi, même si la raréfaction des données constitue un défi réel, elle ne condamne pas les progrès des IA génératives. Et il est probable que les chercheurs et développeurs trouveront des moyens de maintenir la performance et la diversité des modèles.
Sources
- https://www.theguardian.com/technology/2025/jan/09/elon-musk-data-ai-training-artificial-intelligence
- https://www.digitaltrends.com/computing/elon-musk-grok-not-enough-real-world-data-for-training/
- https://techcrunch.com/2025/01/08/elon-musk-agrees-that-weve-exhausted-ai-training/
- https://www.infobref.com/ai-synthetic-data-google-meta
- https://intelligence-artificielle.developpez.com/news/goldman-sachs-ai-donnees-privees
- https://www.theverge.com/2024/11/12/meta-user-data-collection-privacy
- https://mlq.ai/media/quarterly_decks/v0.1_State_of_AI_in_Business_2025_Report.pdf
- https://www.lemonde.fr/les-decodeurs/article/2024/07/26/data-provenance-initiative-l-ia-et-les-robots-txt_6172345_4355770.html
- https://taleofdata.com/ai-failure-due-to-data-quality
- https://eur-lex.europa.eu/legal-content/FR/TXT/?uri=CELEX%3A32016R0679
- https://digital-strategy.ec.europa.eu/en/policies/european-approach-artificial-intelligence
- https://www.nortonrosefulbright.com/fr-ca/centre-du-savoir/publications/f237e6c7/les-donnees-de-sortie-dun-systeme-dia-generative-sont-elles-protegees-par-des-droits-de-propriete-intellectuelle
- https://www.lemonde.fr/les-decodeurs/article/2024/07/26/hugging-face-et-le-corpus-fineweb_6172345_4355770.html
- https://www.lemonde.fr/economie/article/2024/08/15/openai-microsoft-investissements-ia-bulle-financiere_6184567_3234.html
- https://www.lemonde.fr/sciences/article/2025/02/03/intelligence-artificielle-mais-jusqu-ou-ira-t-elle_6529782_1650684.html
- https://arxiv.org/abs/2305.10998
- https://proceedings.mlr.press/v235/villalobos24a.html
- https://proceedings.neurips.cc/paper_files/paper/2023/hash/9d89448b63ce1e2e8dc7af72c984c196-Abstract-Conference.html
- https://arxiv.org/abs/2404.05090
- https://arxiv.org/abs/2410.04840
- https://arxiv.org/abs/2410.16713
- https://aclanthology.org/2022.naacl-main.260
- https://aclanthology.org/2023.findings-acl.110/
- https://link.springer.com/article/10.1007/s44196-023-00287-6
- https://aclanthology.org/2024.lrec-main.1299/
Vous avez aimé cet article ?
Abonnez-vous à notre newsletter pour ne rien rater de l’actualité Tech et Finance.



Pas encore de commentaires