L’équipe INnov de Meritis, représentée par Tristan Riou et Benoît Joly, s’est rendue à la conférence PyData Paris, organisée les 25 et 26 septembre 2024 à la Cité des Sciences de Paris. Retour sur cet événement dans cet article. On vous raconte tout !
Cet événement s’intégrait pleinement dans notre démarche de recherche scientifique et de diffusion et de partage de connaissances. Notre équipe INnov, composée de Théodore Boullier, Julien Ageloux, Tristan Riou et Benoît Joly, est la structure d’innovation de Meritis. Par nos travaux de recherche et le développement de solutions innovantes, nous affirmons l’engagement de Meritis dans l’IA générative.
Qu’est-ce que PyData ?
Initiative de NumFOCUS, PyData est une plateforme dédiée à l’échange d’idées entre utilisateurs et développeurs de logiciels de science des données. Elle se concentre principalement sur des outils open source tels que NumPy, Pandas et Matplotlib. Les événements PyData, qui incluent des conférences et des ateliers, s’adressent à une vaste audience, allant des développeurs aux universitaires, en passant par les data analysts. NumFOCUS et PyData s’engagent à soutenir la durabilité et l’accessibilité des outils de gestion de données open source.
Notre expérience PyData
L’événement nous a permis de forger notre propre vision de la communauté PyData, dévouée à l’avancement des outils de traitement des données. Nous avons assisté à des présentations sur les dernières améliorations de bibliothèques Python, exploré des cas d’utilisation innovants et discuté des nouvelles recherches en data science et en IA. Ce rendez-vous fut une occasion exceptionnelle pour notre équipe de s’immerger dans les dernières avancées du domaine et d’échanger avec des experts mondiaux.
Les sujets phares abordés durant les exposés de PyData
Les événements PyData explorent toujours des sujets actuels des domaines de l’IA. Cette édition mettait l’accent sur différents sujets. Parmi lesquels :
- Les times series à travers des discussions sur les derniers modèles “transformers” de prévision.
- Le traitement des données par la présentation des nouvelles fonctionnalités des bibliothèques open sources Python comme Dask, Pandas et autres.
- La présentation de cas d’usage intégrant l’IA générative et les dernières avancées scientifiques autour des méthodes de RAG.
Notre sujet phare : les méthodes de RAG
Parmi tous les sujets abordés, notre attention s’est particulièrement portée sur les présentations autour des méthodes de RAG (Retrieval Augmented Generation). Le développement de ces méthodes reste encore un enjeu clé du secteur. Bien que de nombreuses méthodes ont été développées, la difficulté de répondre avec précision à des besoins spécifiques persiste.
Chez INnov, nous concentrons actuellement nos efforts sur ce sujet, et plus spécifiquement sur les méthodes appelées « GraphRAG ». Les conférences abordant ce sujet nous ont permis de confronter nos recherches et nos propres techniques aux avancées récentes de ce domaine. Pour en savoir plus sur ces techniques de RAG, je vous invite à consulter les articles de blog de Tristan dans lesquels il vulgarise ce processus consistant à optimiser le résultat d’un grand modèle de langage et qui se trouve être au cœur de plus en plus de cas d’usage.
Découvrez notre série d’articles sur le RAG !
👉Découvrez le premier article de la série « Le RAG ou comment enrichir les modèles d’IA générative »
Les avancées sur les GraphRag par l’équipe de Nokia Bell
Le conférencier a comparé un RAG naïf à un GraphRAG, mettant en évidence les avantages et les limitations de chaque technique. Cette présentation a confirmé de manière éclatante la pertinence de nos travaux. L’état de l’art des GraphRAG est encore en phase initiale, et leur mise en œuvre se heurte à des défis importants, tant au niveau des données que des coûts d’intégration. Entre théorie et mise en pratique, trouver un équilibre stable est subtil et se fait encore au cas par cas.
Nous avons alors pu constater que nos résultats étaient alignés avec
les meilleures pratiques du secteur, tout en offrant des solutions pour surmonter plusieurs limitations telles que l’ajout d’un document, ou des recherches sémantiques plus fines et moins coûteuses. Ce constat nous a non seulement confortés dans nos approches actuelles, mais il nous a aussi motivés à poursuivre nos recherches afin de rester à la pointe de l’innovation.
Évaluation des évaluateurs de RAG par l’équipe de Modus Create
Cet exposé a été particulièrement instructif pour nous. Il nous a permis de mieux comprendre comment évaluer nos propres méthodes d’évaluation dans nos projets de GraphRag. Leur étude est encore dans une première phase mais, grâce à cette présentation, nous sommes désormais mieux équipés pour affiner nos techniques d’évaluation et améliorer notre précision.
D’ailleurs, nous avons déjà commencé à mettre en place une nouvelle série de tests pour évaluer la pertinence de la partie Retrival du RAG. Nous serons ravis de partager ces résultats.
Technologies et cas d’usage : ce que nous avons découvert et ce que nous envisageons d’adopter
Parmi tout ce que nous avons découvert lors du salon, PyData Paris 2024 nous a notamment donné l’occasion d’appréhender les améliorations GPU de Networkx. En effet, la récente découverte de la nouvelle fonctionnalité de calcul sur GPU de la bibliothèque NetworkX, dédiée à la gestion des données sous forme de graphes, a été pour nous une agréable surprise. Compte tenu de nos recherches sur les GraphRAG, ces avancées n’ont pas manqué de retenir notre attention.
En parallèle, nous avons été séduits par CodeCarbon qui favorise le suivi des émissions de CO2. Cet outil nous a particulièrement interpellé par son approche proactive dans le suivi de l’empreinte carbone des projets d’IA. Avec notre engagement pour la durabilité, utiliser cet outil pourrait transformer la façon dont nous mesurons l’impact environnemental de nos innovations.
Testez votre maturité Data !
Êtes-vous certain de valoriser et exploiter au maximum
vos données d’entreprise ? 👉Faites le test !
Présentation de modèles open source
Nous avons également eu l’opportunité d’assister à deux conférences sur des modèles de langage LLM open source. L’accessibilité de ces LLM constitue pour nous un fondement essentiel dans nos travaux de recherche, nous permettant de les utiliser avec simplicité pour résoudre divers cas d’usage que nous vous présentons ci-après.
Présentation de la plateforme Huggingface
Ce n’était pas vraiment une découverte pour la cellule INnov, mais il est toujours bon de rappeler l’existence d’une telle plateforme. Huggingface permet l’accès open source à des milliers de modèles de traitement du langage, de vision par ordinateur, de classification, etc. Le tout, soutenu par une communauté de plus en plus active et au cœur de l’innovation.
Présentation des derniers modèles de Mistral AI
Entre Mistral Large, que nous avons déjà utilisé dans nos recherches sur les GraphRag, et leur dernier modèle Pixtral, Mistral AI sait impressionner. La conférencière a révélé qu’un nouveau modèle permettant de réaliser de l’OCR directement sur des PDF est en cours de développement. Nous sommes impatients de pouvoir l’implémenter dans le Meripote, notre chatbot interne, pour que nos collaborateurs puissent discuter avec des documents en toute sécurité.
Cas d’usage pertinents et leur impact sur notre vision
Le saviez-vous ? 85 % des projets d’intelligence artificielle échouent, et ce alors que plus de 7 entreprises sur 10 sont engagées dans des projets IA 💡
🚀 Découvrez les clés du passage à l’échelle de votre projet d’Intelligence Artificielle
Téléchargez notre guide pour répondre à vos questions :
- Par où commencer ?
- Quels prérequis mettre en place pour passer en production ?
- Quel algorithme utiliser ?
- Comment implémenter son modèle ?
Parmi les cas d’usage et autres exemples proposés lors de l’événement, certains se sont avérés particulièrement pertinents et n’ont pas manqué de nous donner des idées pour nos futurs travaux de recherche.
Détecter les informations sensibles sur GitHub avec GitGuardian
Cet exposé a exploré comment une combinaison fine de l’utilisation de techniques regex classiques et de modèles d’IA pouvait détecter efficacement les informations sensibles des utilisateurs de la plateforme GitHub. Un cas d’usage pertinent de cybersécurité promouvant une utilisation raisonnée de l’IA, on adore !
Extraction de compétences dans les CV par HelloWork
Nous avons observé leur utilisation de l’IA pour extraire les compétences. Cette démonstration a été particulièrement révélatrice tant elle était similaire à un de nos projets mené en interne sous la direction de François Torregrossa, visant à extraire les compétences des Aos et dont les résultats étaient aussi concluants que les leurs.
La participation à PyData 2024 a non seulement enrichi notre expertise, mais elle a également renforcé notre volonté de continuer à innover et à partager nos avancées au sein de la communauté technologique. Les interactions que nous avons eus au cours de cet événement se sont révélées un véritable atout pour notre travail.
Nous sommes reconnaissants d’avoir pu rejoindre la communauté PyData où l’open source est non seulement valorisé, mais aussi encouragé comme moteur d’innovation. En intégrant cet écosystème, nous avons eu accès à de nouvelles perspectives et bonnes pratiques qui enrichissent nos propres projets et renforcent notre engagement à développer des solutions accessibles à tous.
Pour nous, les outils open source constituent la base essentielle pour le succès de nos projets futurs, nous permettant de répondre et de nous adapter aux différents besoins.
Si vous souhaitez partager des cas d’usage que vous avez rencontrés ou pour lesquels vous aimeriez bénéficier de notre expertise :
Vous avez aimé cet article ?
Abonnez-vous à notre newsletter pour ne rien rater de l’actualité Tech et Finance.
Pas encore de commentaires