Warning: Undefined array key "@type" in /home/izfp0212/projets-libres.org/wp-content/plugins/seo-by-rank-math/includes/modules/schema/class-frontend.php on line 73

Warning: Undefined array key "@type" in /home/izfp0212/projets-libres.org/wp-content/plugins/seo-by-rank-math/includes/modules/schema/class-jsonld.php on line 337

Warning: Undefined array key "@type" in /home/izfp0212/projets-libres.org/wp-content/plugins/seo-by-rank-math/includes/modules/schema/class-jsonld.php on line 337

Deprecated: strtolower(): Passing null to parameter #1 ($string) of type string is deprecated in /home/izfp0212/projets-libres.org/wp-content/plugins/seo-by-rank-math/includes/modules/schema/class-jsonld.php on line 338

Warning: Undefined array key "@type" in /home/izfp0212/projets-libres.org/wp-content/plugins/seo-by-rank-math/includes/modules/schema/class-frontend.php on line 107
[Conférence] De OpenAI à Open Source AI : De Open AI à Open Source AI
De Open AI à Open Source AI : conférences lors de Devoxx France en avril 2025

[Conférence] De OpenAI à Opensource AI: entre propriété commerciale et ouverture collaborative

De OpenAI à Open Source AI par Raphaël Semeteys, Devoxx France 2025

Raphaël : bonjour à tous et à toutes, merci d’être venu si nombreux pour Yet Another Talk sur la GenAI, comme quoi on en redemande. Ce que je vous propose là c’est peut-être prendre un angle de vue un peu différent : on va pas parler des capacités intrinsèques, des large language model, ce genre de choses là. Et je me suis mis dans le thème de, je sais pas comment on appelle ça, Cyber Maya, je sais pas c’est quoi trop le thème de Vox, moi j’ai un peu Indiana Jones, on explore. explore.

Et donc, ce que je vous propose, c’est de partir en voyage avec moi, en expédition, pour explorer la jungle des LLM. Parce que c’est vraiment ça, aujourd’hui. C’est dense, il y en a partout, on entend des bruits, on ne sait pas ce que ça veut dire. Il y a des gros trucs, il y a des petits. Et donc, j’ai appelé ça d’OpenAI à Open Source AI, parce que l’angle de vue que je veux proposer, la carte et la boussole, c’est de regarder qu’est-ce que ça veut dire open, pour un Large Language Model. Parce qu’il y a beaucoup de buzz, beaucoup de communication, beaucoup d’open washing, beaucoup d’open bashing, et donc c’est de découvrir un petit peu dans cette jungle qu’est-ce qu’on a, toutes les variantes qu’on peut avoir entre propriété commerciale et ouverture collaborative.

Je me présente, je m’appelle Raphaël Semeteys, je travaille chez Worldline et Atos auparavant, depuis 1999. Je suis basé à Paris. Je suis responsable des activités DevRel mais je suis architecte, donc j’ai l’habitude de regarder les choses, comment on les assemble pour quoi faire, etc. Je suis expert Open Source, et ça c’est important important, parce que je vais utiliser cette expertise-là pour explorer justement cette jungle-là. Et puis ça, c’est mon avatar. Vous aurez peut-être la ref, Raphiki.

Ah oui, puis je fais la promo aussi du podcast Projets Libres, parce que j’aide un super pote. Maintenant, je suis quasi dans l’équipe d’organisation. Et en français, si vous voulez savoir des choses sur la gouvernance des logiciels libres, les licences, des retours expériences de projets, etc., allez-y, c’est super.

Donc voilà. Ce que je vous propose, c’est préparez-vous, n’ayez pas peur. La jungle, ça fait peur puisqu’il fait sombre, il y a des bruits bizarres et tout. Mais prenez votre chapeau d’explorateur. J’espère que ça ne va pas foutre le bordel dans mon micro. Ajustez votre ceinture, mettez vos bottes. On va rentrer dans la jungle des LLM.

Des modèles statiques simples aux LLM

Là, ça y est, ça commence. La lumière commence à devenir un peu plus tamisée. Waouh ! C’est sombre, on distingue des trucs au fond. Qu’est-ce qui se passe ? Avant de s’enfoncer plus profondément dans la jungle, on va juste se retourner on prend un point de repère histoire de pouvoir retrouver la sortie savoir d’où on vient un petit peu donc là je ne vais pas refaire l’histoire de l’IA alors là il y a Luc Julia qui le fait beaucoup mieux et en gros ça n’existe pas. Moi je reviens sur les langages de modèles, en gros je ne remonte pas si loin dans les années 2010 il y avait des modèles de langages déjà, on faisait déjà de la sémantique, de la recherche sémantique et on modélisait les mots dans des espaces véctoriels avec cette notion d’embeddings etc, mais les qualités de ces résultats n’était pas super, ça n’avait pas percé en termes d’usage. Il y avait de l’imitation, en fait.

Tout ça, ça a basculé en 2017-2018 avec la publication d’un papier de recherche qui s’appelle Attention is all you need par Google Research, et qui a introduit ce mécanisme d’attention, en gros, sans entrer dans les détails et sans vexer les data scientists et les spécialistes en AI. En gros, ça permet de paralyser des choses avec de l’attention qui se déplace dans la phrase, etc. Et donc, ça, ça a débloqué les limitations qu’on avait sur les modèles de langage. Tout ça, à base de ressources, etc. et on va le voir, de traitement, ça a donné les Large Language Models. Avec une architecture de type transformer. Et puis là, après, depuis 5 ans, 4 ans, 5 ans, c’est la hype totale qu’on connaît, avec ChatGPT, usage mondial, la technologie la plus adoptée en un temps record par l’humanité. L’usage du multimodal, donc plusieurs modalités, des modèles aussi qui vont gérer du texte, mais aussi de la voix, de l’image, de la vidéo, etc. Et puis, des réflexions sur « ah ouais, mais c’est puissant, en fait, ces modèles-là. Ah, il faudrait commencer à réfléchir à qu’est-ce qu’on peut faire ou pas faire avec ». Donc, nos notions de responsabilité, de l’usage de ces outils-là, puisqu’ils sont puissants. Donc, vous avez vu, Luc Julia, c’est un outil. Avec un marteau, on peut taper quelqu’un ou enfoncer un clou. Donc, il y a les cadres réglementaires aussi qui se mettent en place, des gouvernements qui commencent à dire, : « il faudra peut-être qu’on encadre tout ça ».

Et puis, quand j’ai commencé à faire ces recherches-là, sous ces angles-là des large language models, je disais, donc ça c’était il y a un an et demi, j’ai eu la première version de ce talk, à chaque fois que je le donne ça change parce que évidemment ça bouge tellement. Je disais le futur, enfin je jouais un petit peu Madame Irma là, je disais, wow ce sera les small language models, on va revenir à des trucs plus petits, plus spécialisés qu’on va pouvoir diffuser. Arriver sur des usages mobiles, il y a les agents aussi qui vont émerger, on va pouvoir commencer à faire de l’architecture. Et puis, en fait, aujourd’hui, enfin, hier, enfin, demain, pardon, c’est aujourd’hui. Tout ça, c’est aujourd’hui, c’est l’expérience qu’on fait. Il y a peut-être les LAM dont je parlais, ça, peut-être que ça va arriver, ça va exploser bientôt. C’est les Large Action Models. Donc, c’est plus du langage, c’est des comportements, en fait, les modèles. Donc, c’est pour interagir et faire un embeeded AI dans des robots, ou interagir avec le monde, etc., etc.

La GenAI a son moment Linux

Bon, bref, en tout cas, on voit que tout ça, ça bouge beaucoup. Là, le sujet de mon talk, c’est vraiment sur les LLM. Et alors moi, comme je l’ai dit, je suis expert Open Source. Moi, j’ai découvert l’Open Source quand j’étais en école d’ingé dans les années 90, en même temps qu’Internet. J’ai vu ces deux trucs, j’ai dit : « c’est un truc de fou, on est en train de tout connecter. En plus, on commence à partager des choses. Ah, ça va être dingue, ça va changer le monde ». Bon, c’est ce qui s’est passé à peu près.

Et donc du coup, j’ai suivi à partir des années 90, donc c’est pas le début de l’open source ou du logiciel libre, mais j’ai suivi un peu toute l’adoption, en fait. Tout ça, comment l’open source avec Internet, tout ça, c’est concomitant, ça a changé un peu l’IT, ça a changé la société, comment ça a été adopté, en fait. Et quand je regarde ce qui se passe avec la GenAI, je me dis, « waouh, ça me rappelle carrément ce que j’ai observé avec l’open source, sauf que ça va beaucoup, beaucoup, beaucoup plus vite ». Mais effectivement, que ce soit open source, Internet ou Gen AI, tout ça, ça a commencé, évidemment, dans des labs, dans des universités où on fait de la recherche.

Raphaël Semeteys

Et les chercheurs, qu’est-ce qu’ils font ? Ils ont l’habitude de travailler, dans leur labo, publier des résultats de recherche. Ils sont des coloques, comme nous, ils ne s’en savent pas, c’est lui qui a trouvé machin et tout. Et de publier leurs résultats et surtout de les réutiliser.

Et donc, il y a une espèce de recherche collective mondiale qui se fait, où on réutilise les travaux des autres, on s’en inspire et on reconstruit par-dessus. Et c’est comme ça que, collectivement, on arrive à construire des choses. C’est comme ça qu’on faisait des logiciels au tout début, avant qu’on comprenne que le logiciel est de la valeur et que des AT&T, IBM, etc. disent qu’on va vendre le logiciel. C’est ça qui a créé la Free Software Foundation. Des gens qui ont dit : « non, on veut continuer à partager les logiciels, on ne veut pas les rendre privateurs ». Et donc, c’est comme ça qu’on a fait les mathématiques. Si on avait mis des brevets ou on avait fait les mathématiques commerciaux, je ne sais pas si en tant qu’humanitaire on serait arrivé sur la Lune, par exemple, si chacun gardait ses équations dans son coin, etc. Donc, il y a cette notion de partage.

Et puis, quand l’usage devient mature, il devient puissant, il sort de cette sphère des labos et il rentre chez les individus. Et puis, à travers les individus, dans les entreprises. Donc là, il y a l’usage. Alors là, avec la GenAI, c’est la ChatGPT. Là ChatGPT, tu as vu le truc ? C’est incroyable. Et puis là, il y a un usage et une adoption dingue dans le cadre de la ChatGPT et de la GenAI en général. Et ça rentre dans le monde du business et des entreprises. Là, on parle de milliards tout de suite. La GenAI, c’est des milliards, des milliards de dollars, d’euros, de yens, etc.

Et là, on rentre dans ce qu’on a connu avec l’open source. Il y a des entreprises qui disent, d’abord, avec ce modèle très centralisé, on va discuter centralisation, décentralisation, ça coûte cher à entraîner, ça coûte cher à faire tourner, il faut beaucoup de machines, donc il faut de l’argent. Et puis, il y a de la valeur en modèle, donc on va gagner de l’argent avec. Et donc là, on commence à avoir des postures qui changent. Un peu comme avec le software : « On pourrait le vendre, ce truc, on pourrait se faire de l’argent. Les chercheurs, ils sont gentils, ils continuent. Mais nous, on va monter des business models par-dessus ». Et si on suit ce que moi j’ai observé dans l’Open Source, alors je suis un peu radical quand je dis ça, les LLM ça va devenir des commodités. C’est-à-dire que ça va devenir quelque chose de standard. Alors évidemment ils vont être spécialisés, il y en aura qui sont open, qui sont payants, etc. Mais on va commencer à construire par-dessus.

On va commencer à innover par-dessus parce que le LLM ça va devenir une brique standard qu’on va mettre dans nos architectures. Sauf que ça va beaucoup plus vite et donc moi ce que je me suis dit, je me suis dit je reconnais les patterns, ça me rappelle l’open source, le mouvement open source, etc. Donc le réflexe que j’ai eu, c’est de dire, je vais regarder les licences, je vais regarder ce que ça veut dire ouvert. Parce que, voilà, Meta, ouais, on est open source, ce genre de choses-là. Qu’est-ce que ça veut dire open pour un modèle ? Et c’est un bon angle d’analyse de comment on va pouvoir l’utiliser dans le futur, en fait, ces briques, alors que pour moi, elles vont devenir des commodités très bientôt, si ce n’est pas déjà le cas. Donc, c’est avoir plus de clarté sur les licences, plus de clarté sur l’ouverture d’un modèle.

Définir l’ouverture d’un modèle

Donc, qu’est-ce que j’ai fait ? Je suis allé voir les chercheurs chez nous. On fait de la recherche. Worldline, c’est dans le paiement, principalement, et dans la gestion des paiements, ça fait longtemps qu’on fait de l’IA, notamment pour la détection de fraude. pas forcément de la GenAI, mais bon. Et donc, ils regardent ça. Et donc, je suis allé les voir. Je leur ai dit, « bon, moi, j’ai une question simple. C’est, bon, déjà, qu’est-ce que c’est un LLM ? Déjà, bon, ça, c’est complexe. Mais qu’est-ce qu’il faut que je regarde dans la chaîne de construction ou d’entraînement d’un LLM ? Qu’est-ce qu’il faut que je regarde pour identifier le niveau d’ouverture du truc ? ». Et ils m’ont dit, bon, alors, ils sont avec ce schéma-là. Donc, ça, c’est un an, un an et demi. depuis il y a d’autres méthodes d’entraînement qui existent on pourrait faire des schémas plus complexes etc mais les principes importants ils restent.

Ils m’ont dit le premier truc c’est le modèle lui-même donc le modèle, un LLM c’est quoi ? C’est un modèle de réseau de neurones c’est une description d’une architecture qui va être ensuite implémentée et qui va être entraînée. Et cet entraînement il va générer des paramètres la détermination de paramètres, donc les fameux poids du modèle sur ces différentes couches de réseau de neurones. Et ils m’ont dit « nous en tant que chercheurs d’IA avoir le code qui implémente l’architecture de raison de ronde on s’en fout parce que franchement on sait le faire c’est hyper connu à partir du moment où on connaît l’architecture c’est pas ça qui fait faire la valeur du modèle ok ce qui est intéressant c’est les poids c’est à dire que c’est le modèle entraîné une fois que j’ai les poids alors là oui je peux reproduire l’architecture reconfigurer le modèle et en gros j’ai récupéré le modèle et je le fais tourner chez moi ». Donc ça ils m’ont dit « ça c’est le premier truc qu’il faut que tu regardes est-ce que c’est disponible et selon quelles conditions ».

Deuxième aspect à regarder c’est les données puisqu’il n’y a pas pas de modèles sans données, il n’y a pas de poids sans modèles. En fait, les poids, quelque part, c’est un peu les données qui ont été engrammées dans le modèle. Donc, on a plusieurs types de datasets qui vont servir à entraîner les modèles. Donc ça, on a le dataset de pré-entraînement, ça va servir à créer des modèles fondamentaux. C’est des modèles qui ont une connaissance générale énorme. Et c’est pour ça que pour les créer, qu’est-ce qu’on va faire ? On va essayer de récupérer le maximum de données, donc tout Internet, tout ce que c’est d’humanité, quoi, en gros, en essayant de filtrer comme l’a dit Luc Julia, tout ce qui vient des LLM eux-mêmes, parce que sinon, ça fait la vache folle, et on va entraîner les modèles avec ça. Donc là, il dit, c’est bien d’avoir est-ce qu’on a accès à ces datasets ? Est-ce qu’on sait ce que c’est ? Est-ce qu’il y a accès ? Est-ce qu’il y a des licences dessus ? Est-ce qu’on peut les réutiliser, les modifier, les réutiliser pour entraîner d’autres modèles ou pas ? etc. Donc ça, ça va être un gage d’ouverture.

Le deuxième, c’est les datasets qui vont servir dans d’autres phases d’entraînement des modèles, notamment quand on veut faire des modèles fine-tuned spécialisés, combat spécialisé alors sur un domaine donné ou en tout cas sur une manière de fonctionner de données. Par exemple, les modèles de type chat avec des humains, ça c’est des modèles qui sont fine-tunés par rapport à des modèles fondamentaux qui eux ont été entraînés pour faire plein de choses, n’est pas forcément spécialisé pour le chat. Et puis on prend une troisième catégorie de modèles alors qu’on met, que je mets ici en renforcement par des humains, donc le RLHF, il y a aussi des données qui viennent d’humains pour corriger et aligner le modèle pour encore plus être dans un usage particulier. OK ? Et puis, il y a d’autres techniques maintenant, DPO, avec des préférences, etc. Mais en gros, il y a d’autres types de données qui servent à aligner le modèle.

Et ce qu’ils m’ont dit, ils m’ont dit, quand on est dans ce dernier cas-là, il y a un truc intermédiaire qu’on ne voit pas souvent qui est le fameux reward model. Parce que j’ai dit que c’est renforcé par des humains, mais ça va aider à entraîner un modèle intermédiaire qui, lui, ensuite, va rentrer dans l’entraînement et l’alignement final du modèle.

Et ça, ils m’ont dit, ça, souvent, on ne le voit pas,ce truc. Donc, nous, en tant que chercheurs, c’est important qu’on puisse l’installer.

Donc, ça, ils m’ont dit, ouais, regarde ça, s’il y a ça. Et puis, bon, il y a quand même du code, mais j’ai dit, bon, le code du modèle lui-même, l’architecture, l’implémentation, ce n’est pas ça qui va nous intéresser le plus. C’est ça, Data Processing Code. C’est-à-dire, est-ce qu’on a tous les éléments pour faire tout l’ordonnancement, organiser le traitement des données, organiser l’entraînement, récupérer les résultats, les logs, etc ? Si on a ça, alors là, ça peut gagner vachement de temps parce qu’on peut très facilement reproduire l’entraînement du modèle chez nous. Et donc, le modifier et faire nos propres fine-tuning, par exemple.

Donc, OK, moi, en partant sur ces 5 artifacts, 5 composants d’entraînement d’un LLM, j’ai dit, bon, OK, ça, c’est ma carte. Maintenant, j’ai besoin d’une boussole avant d’entrer dans la jungle, je ne suis pas fou.

J’ai du matériel, donc je propose cette graduation-là : 0 c’est complètement fermé, en gros c’est la boîte noire, on n’a pas accès à l’artifact en question, donc que ce soit les données, le code, le dataset, les poids, etc. Et puis 4, c’est complètement ouvert au sens Free Software, c’est-à-dire j’y ai accès, je peux l’utiliser, je peux le distribuer, je peux le modifier, je peux le redistribuer, et ça sans restriction. Et puis entre les deux, j’ai mis 1, c’est décrit dans des papiers de recherche mais on n’a pas tellement plus d’informations que ça, mais on l’a vu ça peut servir à des chercheurs en disant oui non mais ça ce type de modèle j’ai compris je peux le refaire etc. 2, je peux avoir accès aux composants mais il faut montrer patte blanche donc soit faut payer, soit faut avoir signé quelque chose, soit être dans un projet de recherche, ce genre de choses là. Typiquement pour certaines données. Et puis 3, c’est open, je peux l’utiliser, je peux le modifier, je peux le redistribuer mais il va y avoir des limitations à l’usage que je peux faire de l’artifact en question. Et avec ça, moi ce que je propose c’est là cette fois-ci c’est bon, on a moins peur, enfin moi en tout cas, et je peux rentrer dans la jungle, m’enfoncer dans la jungle et dire « bon allez je vais commencer à essayer de cartographier un peu comme un ethnologue, je sais pas comment dire, un lmologue, et essayer de voir un peu quel profil de bestiole je vais trouver là-dedans ».

Leader du marché : OpenAI

Bon, quand on rentre dans la jungle, le plus facile à trouver c’est OpenAI : celui-là il n’est pas compliqué, on n’a pas besoin de s’enfoncer très profondément dans le truc pour l’identifier. Et donc, si j’applique un peu la grille, ça va me donner des choses de ce genre-là.

Alors d’abord OpenAI, son nom : l’entreprise à but non lucratif, même si en ce moment, c’est en train de devenir plus ou moins changer de statut. Le nom, c’est un projet de recherche pluridisciplinaire pour faire avancer la connaissance dans l’AI pour le bien-être de l’humanité, etc. etc. Donc, ce qui veut dire que leur famille de modèles GPT, donc Generative Pre-training Transformer, Transformer, donc le truc introduit par Google avant. Donc, ils sont toujours dans le mode recherche collaborative, etc. Ils implémentent ça. Le modèle, lui, il est complètement ouvert. On peut l’utiliser. Il n’y a pas de restrictions, etc. Et dataset et code, bon… c’est décrit dans des papiers de recherche, mais on n’a pas tellement plus de détails que ça. On est dans de la recherche. Ils ne s’occupent pas des masses des données. Eux, ce qu’ils veulent, c’est avoir un modèle performant et montrer qu’on peut aller vers l’Artificial General Intelligence, qui n’existera jamais, l’a dit Luc Julia.

Mais voilà, donc ça, c’est leur objectif. Arrive la hype, la hype des LLM. Ah, boum, boum, des millions d’utilisateurs, etc., etc. Là, Microsoft qui arrive : « allez, je te donne des millions, tu vas entraîner le modèle, on va faire un truc de dingue ». La valeur arrive, et là les gens disent « on ferme tout. On ne change pas de nom, mais par contre, on ferme le modèle ». C’est complet, il n’y a plus rien, boîte noire. Donc, on ne sait pas comment ça marche, à partir de versions 3, 4, O et suivantes, tout est fermé. Il y a des choses qui sont décrites sur ChatGPT, donc avec un fine-tune de GPT dans des papiers de recherche, un peu sur O1, mais quelque part, j’ai tendance à dire c’est presque du marketing quoi, c’est se dire « ouais on a fait des trucs, on innove, on est super balèze, on fait du chain of thought, voilà on a fait des choses ». Mais on n’a pas le détail véritablement. Donc, on le voit, changement radical quand on rentre dans cette ère du business. Open, recherche ouverte, collaboratif, etc. Fermé, on fait de l’argent, on fait du business.

Il y a un autre truc qui est important, et c’est pour ça que ce réflexe-là de lire les licences et les conditions d’utilisation, puisque dans les conditions d’utilisation d’OpenAI, il est dit qu’on ne peut pas utiliser des résultats qui viennent de nos modèles pour entraîner des modèles concurrents. On va voir si c’est important pour la suite. Donc, n’entraînez pas des modèles commerciaux. Ou alors il faut venir nous parler. Un autre qui est facile à trouver… Ah, pardon ! Oui, ça, c’est un truc que j’ai rajouté parce que ça bouge tellement vite que… J’ai rajouté ça, puisqu’il y a à peu près une semaine ou deux, Sam Altman le CEO d’OpenAI, a dit « Ah, ça fait longtemps qu’on n’a pas fait des trucs un peu open, comme à l’époque de GPT. On est en train de réfléchir à voir si on ne peut pas ouvrir quelque chose chez OpenAI. » Donc là, on va arriver, peut-être, à cette notion d’open weight, cette notion de commodity dit-il, dont je commençais à parler là. Peut-être qu’il faudrait qu’on partage. Alors, est-ce que c’est sous la pression de concurrents américains ou chinois ? Allez savoir. Qu’est-ce que ça va être exactement ? On n’en sait rien. Mais en tout cas, on voit bien qu’OpenAI est en train de dire qu’il faut qu’on fasse gaffe et que peut-être qu’on joue un petit peu la carte de l’ouverture.

Leader du marché : Google

Donc là, comme je disais, l’autre facile à trouver, c’est Google. Je vais checker là. C’est bon. Avec BERT. Donc dans BERT, il y a Transformer. Ça tombe bien. C’est eux qui ont inventé le type d’architecture. Donc ils l’implémentent.

C’est carrément plutôt ouvert. Le dataset, on n’a pas accès à tout si on n’a pas patte blanche. Mais on est vraiment dans ce monde à recherche collaborative, etc. Hype des LLM, d’abord avec Palm, Palm 2, puis maintenant Gemini qui est un nom générique sur lequel ils mettent pas mal de LLM. Premier réflexe : on ferme aussi, on arrête. On rentre dans l’arène du business, etc., donc on continue à publier des choses dans les papiers de recherche mais bon voilà, c’est tout.

Et puis, peu de temps après, quand même, ils reprennent une posture un peu plus pragmatique où ils se disent, on va quand même faire des trucs un peu ouverts, on va sortir Gemma, qui est en fait en parallèle, une famille parallèle à la Gemini, qui autorise la réutilisation des poids avec des limitations, on va voir. La recherche sur les datasets, notamment, elle est publiée, mais on n’a pas vraiment le détail, et il y a des chances qu’il y ait des trucs quand même similaires avec Gemini. Et, en revanche, ils fournissent énormément de code, d’outils, de docs, etc., sur comment faire tourner Gemma en local, et surtout fine-tuner, donc comment faire ses propres versions dérivées de modèles. Donc là, à la mode un peu Google, allez-y, adoptez-le, jouez avec, etc. OK ? Pourquoi il y a trois sur l’ouverture des poids, là ?

C’est parce qu’en gros, il y a cette notion d’IA responsable que j’évoquais tout à l’heure, qui dit « Ouais, mais avec Gemma, on ne peut pas faire le mal. » Alors, le mal, c’est quoi ? Bonne question. Il y a des trucs, c’est évident : « Il ne faut pas faire des exercices illégaux d’une profession, il ne faut pas faire la promotion de la violence, de la haine, etc ». C’est à peu près clair, c’est puissant, non ? Il ne faut pas se faire une bombe avec, enfin voilà, ce genre de choses-là. Mais donc ça, cette restriction-là, ça fait que ça contredit la définition stricto sensu de open source. À partir du moment où on met une restriction à l’usage, dans la définition initiale de open source, ce n’est pas open, puisqu’on est en train de restreindre l’usage. Ça, c’est juste à noter. Déjà, open source, il faut faire attention à ce qu’on veut dire par là.

Raphaël Semeteys

Voilà. Donc ça, c’est sur la partie Google.

D’autres acteurs majeurs

Après, les autres, les usual suspects, ceux qui sont faciles à trouver dans la jungle. En gros, c’est les gros, c’est les géants du web, c’est ceux qui ont bien profité justement de toute cette mise en réseau et qui ont capté un petit peu la data, les usages, les données qu’ils ont monétisés. Ils se sont dit, il faut qu’on fasse de l’argent avec, etc. etc., ils essayent de rattraper ou ils rattrapent ou ils ont rattrapé leur retard. Avec deux grands axes. Un, ils créent leurs propres modèles, alors ouverts ou pas.

Donc ouverts, on a Alibaba avec Qwen, on a des choses qui se passent chez IBM aussi, ou propriétaires. Et puis, ils vont s’associer aussi, s’ils ne sont pas déjà des fournisseurs d’infrastructures, avec des fournisseurs d’infrastructures, parce que dans cette vision-là des modèles, il faut de plus en plus de ressources, il faut avoir le modèle le plus fort, et puis de toute façon, c’est la guerre, il faut montrer qu’on a le plus de paramètres, le plus de modalités, etc. etc. Donc, OpenAI qui s’associe avec Microsoft, même si maintenant le patronat change un peu, mais voilà, il s’associe avec des banques et ça fait des capitalisations en termes de milliards. On a Anthropic avec AWS, on a Grok et donc xAI et Elon Musk avec Oracle, etc. Donc, on voit que ça commence à s’organiser et que les acteurs classiques du géant du web se disent, il faut qu’on rate pas le train, il faut qu’on se positionne parce qu’il y a de la valeur et il va falloir la capter.

Leader du marché : Meta

Il y en a un dont je n’ai pas parlé puisqu’on parle de GAFAM, c’est Meta. Il est intéressant parce qu’il a fait quelque chose qui a aidé à structurer, en tout cas dans cette partie des acteurs, la jungle un petit peu.

Meta, ils ont commencé dans l’open aussi. De toute façon, ils ont des labs de recherche d’intelligence artificielle depuis longtemps. On a Yann LeCun qui est là depuis longtemps aussi. RoBERTa, dans la pré-hype des LLM, vu le nom vous voyez d’où ça vient, c’est clair. Et donc là, ils étaient vraiment dans l’open model, code complètement ouvert. Le dataset, ils essaient de montrer même plus de visibilité, après il faut détricoter un petit peu, donc il peut y avoir certaines limitations en fonction des licences, etc., mais bon, on est dans quelque chose qui est ouvert.

Et puis arrive la hype, tout le monde dit il y a de la valeur, etc., Meta fait pareil et sort sa famille de modèles LLaMA, et commencent à publier des choses dans le cadre de recherche, mais sans donner trop de détails sur les datasets, sur le code. Par contre, ils font un truc, et ça a été dans les premiers de ces acteurs à le faire : ils disent « oui, mais nous, notre modèle, on l’autorise à l’utiliser, et à l’installer, et à le fine-tuner« . Et ça, ça a été les premiers, et c’est pour ça qu’au début, ils ont dit, oui, on est open source, parce qu’on autorise, etc.

On a vu que open source, ça ne s’applique pas forcément, parce que déjà, il y a des limitations qui disent, il ne faut pas faire le mal, aussi déjà sur LLaMA. Et puis, au fur et à mesure que LLaMA, avec les versions, etc., ils commencent à rajouter des choses dans les conditions d’utilisation. Donc la première, c’est avec la version 2. Première restriction, ils disent : « attendez, si vous faites un service basé sur LLaMA en mode SaaS par exemple, et que vous avez plus de 700 millions d’utilisateurs mensuels, là, c’est plus open, il faut venir partager le gâteau avec nous ». Donc il y a une protection, c’est bizarre ça, c’est pas bien ou pas bien, mais en tout cas voilà. Donc on veut partager le gâteau avec vous, ça c’est version 2. Version 3, ils disent : « nous on voudrait quand même avoir la paternité. LLaMA, ça commence à devenir connu et utilisé. Donc si vous faites un modèle fine-tuné, il faut préciser que ça a été construit avec LLaMA, et bien dans le nom de votre modèle, il faudra mettre LLaMA 3 devant pour que ce soit bien clair que ça vient de chez nous et que vous êtes sur une version qui s’est basée ». Donc ça devient un peu plus restrictif.

Et puis LLaMA 4, ils reprennent les restrictions d’avant mais il y a un petit truc qui dit dans les conditions d’utilisation : si vous êtes basé en Europe, vous n’avez pas le droit de l’utiliser. Donc ça, oui, c’est ça. Est-ce que ça a un rapport avec les AI Act et qu’ils ne se sentent pas super droits dans leurs bottes par rapport à comment ils ont entraîné LLaMA et sur quel type de données ? Est-ce qu’ils ont eu le consentement des utilisateurs de Facebook ? Il y a peut-être quelque chose qui joue dans ça, mais pour l’instant, en tout cas, c’est quand même dit. Alors là, attention, c’est open, mais pas en Europe. Donc, il faut faire attention. Il faut bien lire les conditions d’utilisation parce que sinon, on peut avoir des surprises.

Raphaël Semeteys

Progénitures de LLaMa

Mais ils ont quand même fait ce truc et ça a été les premiers de ce type d’acteurs à dire vous pouvez quand même charger le modèle et le réutiliser, surtout avant LLaMA 4, c’est-à-dire même en Europe. Mais là déjà, aux États-Unis, tout de suite, il y a des chercheurs dans des facs qui se sont dit : « super, on va faire ça, on va faire des versions fine-tunées« .

Donc Stanford, Alpaca, Vicuna, je ne sais plus où c’est, Berkeley, je crois, je ne sais plus, une autre fac. Et ils ont à peu près le même profil. C’est-à-dire que si on regarde avec la boussole le niveau d’ouverture, on essaie de scanner le modèle selon cet angle-là, le modèle et le pre-training, les niveaux d’ouverture, ils héritent ça du modèle fondamental sur lequel ils sont basés. Puisque ça vient de là, donc c’est 3 à rien. Et qu’est-ce qu’ils ont rajouté, eux ? C’est du code et c’est de la donnée pour faire ce fine-tuning, donc spécialiser le modèle, l’améliorer, etc. Le code, lui, il est sous licence Apache 2, donc ça de toute façon c’est du code, les licences open source sont vraiment prévues à la base pour du code, donc ça c’est clair. Et au niveau des données, ils ont utilisé des données qui venaient de ShareGPT — un site sur lequel on partage des prompts et le résultat des prompts — , ils ont utilisé des résultats d’OpenAI. Ah ouais, mais il y avait une limitation sur OpenAI : vous ne pouvez pas entraîner une IA concurrente de nous avec des données, etc. Donc en gros, ce sont des travaux de recherche.

On ne peut pas aller faire quelque chose si vous basez là-dessus et que vous construisez un truc business et tout. Alors tout ça, ce n’est pas passé devant des juges et tout, mais l’intention initiale quand même, ce n’était pas que vous fassiez ça. En tout cas, eux, ils ne veulent pas. Donc vous pouvez avoir des petits problèmes. C’est quelque chose quand même qu’il faut avoir en tête.

Et puis plus récemment, genre la semaine dernière, il y a d’autres acteurs, là c’est une entreprise dans la Silicon Valley, une startup, qui a dit « bah ouais, moi je vais me baser sur LLaMA 3.2 et je vais sortir une version encore plus avancée ». Donc avec le chain of thought, c’est de faire des trucs où on a des modèles qui réfléchissent à ce qu’ils vont faire avant de le faire, ce genre de choses-là. Donc ça s’appelle DeepCogito, c’est tout nouveau, on n’a pas tous les détails, on n’a notamment pas de détails sur comment ils ont fait le fine-tuning, le code, etc. Mais on voit bien que si, directement, ils vont hériter du niveau d’ouverture de LLaMA 3.2 — et d’ailleurs, je ne suis pas allé regarder, je ne suis pas allé leur poser la question mais normalement, ils devraient mettre LLaMA 3 devant –, si on dit ce qu’il y avait écrit dans les restrictions. Voilà.

Mais donc tout ça pour montrer que ça, cette ouverture-là, tout de suite, ça crée un dynamisme. Et il y a des gens dans la recherche, mais aussi dans le business, qui sont en train de dire : on va créer des modèles, on va continuer, etc.

LLMs fondamentaux collaboratifs

Donc à partir de là, il y a d’autres acteurs qui se sont aussi mis en place. J’en ai cité juste quelques-uns là, et qui ont dit : « nous, ce qu’on voudrait, c’est créer des modèles fondamentaux plus ouverts, notamment au niveau des datasets, pour impulser un dynamisme et retrouver cette collaboration qui vient du monde de la recherche, qui vient du monde open source. On va faire ça de manière communautaire ». Donc là, je vous ai cité quelques exemples.

On voit, c’est pas mal des trucs de recherche ou militants. En France, par exemple, avec Linagora et OpenLLM France, on veut des choses les plus ouvertes possibles. Donc si je commence de ce côté-là ici, on a Eleuther AI avec GPT-J, qui est ouvert. On voit qu’il y a des petites limitations au niveau du dataset, parce qu’en gros, c’est quand même des chercheurs. Et il y a une petite phrase qui dit « Ah oui, au niveau des datasets, si vous voulez les réutiliser et savoir exactement, renseignez-vous en fonction du dataset ». Donc ça veut dire qu’on n’a pas vraiment fait le boulot. On vous laisse vous démerder avec. C’est pour ça que j’ai mis trois. Mais sinon, c’est quand même assez ouvert.

Mais ce n’est pas qu’aux États-Unis. Par exemple, Falcon vient des Émirats arabes unis. Et là, pareil, dataset super ouvert, ils ont créé leur propre dataset, ils ont mis une licence claire dessus, ils autorisent à l’utiliser, à l’utiliser, etc. Sur le modèle, on va voir, ils peuvent mettre certaines limitations, déjà, peut-être « pas le mal », mais peut-être d’autres, et quelques instructions sur le code. On a BLOOM, ce projet intéressant, parce que c’est un projet de recherche pan-européen, où la France était vraiment très présente, et ça a fait collaborer plein de labos, plein de labs de recherche, ça a tourné sur Jean Zay [supercalculateur du CNRS], ce genre de choses-là.

Et eux, « faire pas le mal », ils ont commencé à l’organiser avec la notion de Open RAIL, donc Open Responsible AI License. Et donc, il y a plusieurs types d’Open RAIL, plusieurs niveaux, etc. Mais ça correspond à dire : « vous ne pouvez pas faire ci, vous ne pouvez pas faire ça, etc ». De ce point de vue-là, ça contredit encore un petit peu la définition open source. Par contre, le dataset est ouvert, le code est complètement disponible. Donc là, on est dans quelque chose qui est assez intéressant.

Raphaël Semeteys

Open LLaMA, pareil, donc ouverture sur le modèle, sur le dataset, et puis quelques limitations au niveau du code. Et puis, Lucie, plus récemment, projet en France, où là, vraiment, on vise avec des gens qui viennent du monde un peu open source, etc., et qui essaient de viser au maximum cette ouverture-là. Donc ça, c’est intéressant.

Ce qu’il faut noter, c’est cette notion d’usage responsable, du flou sur les datasets, où on peut se retrouver dans des situations, on dirait « non, non, non, c’est pas nous, on vous avait dit qu’il fallait regarder », etc. Mais on a des choses qui apparaissent. Donc là, juste pour montrer des licences open source qui peuvent être modifiées. Si je prends Falcon, le projet des Émirats arabes, ils disent qu’on est basé sur Apache License. Et moi, j’ai vu des gens qui disent « Ah, c’est Apache ! ». Mais ils disent aussi « Ah, on l’a modifiée ! ». Et d’ailleurs, vous devrez vraiment lire ce qu’on a fait. Parce que nous, ce qu’on dit, c’est que si vous faites du Falcon as a Service, en fait, il faut venir nous donner de l’argent. Donc, en gros, c’est basé sur Apache, mais on a mis une restriction à l’usage et on a mis une espèce de clause de protection commerciale, un peu comme Meta, un peu comme d’autres acteurs.

Donc c’est important de regarder les détails et les conditions d’utilisation aussi des modèles.

Autres LLMs Open Weights

On a aussi d’autres acteurs que là j’essaie de catégoriser dans ce qu’on appelle Open Weight. Donc vous voyez ce que c’est maintenant : je distribue les poids, j’autorise d’autres à les réutiliser, à même fine-tuner des modèles à partir de là, mais je ne vais pas forcément publier beaucoup de choses sur les données qui ont permis d’obtenir ces poids-là, OK ? Et j’ai plutôt tendance à favoriser le fait qu’on fine-tune en fournissant du code, de la doc, etc. etc., pour que d’autres adoptent le ou les modèles et les spécialisent, OK ?

Et donc on a d’autres entreprises en général qui utilisent ce même positionnement comme Meta, par exemple, on l’a vu, comme Google avec Gemma, et DeepSeek – donc la Chine. Donc ça, c’est pour montrer que tout ça, ce n’est pas limité aux États-Unis. L’IA, ça n’a jamais été limité aux États-Unis, c’est le business qui est très concentré sur les États-Unis. Avec DeepSeek, donc DeepSeek qui a fait le buzz, vous avez tous entendu parler de DeepSeek. Donc eux, qu’est-ce qu’ils font ? Ils font un modèle qui est ouvert. Alors, il y a un truc pas très clair, c’est un peu flou sur la partie DeepSeek. Donc là, je parle de DeepSeek R1, donc le DeepSeek qui est intelligent, celui qui sait faire de la self-reflection, etc. Donc lui, il est basé sur une version bootstrap qui s’appelle R1.0. En fait, ils ont construit leur modèle comme ça.

Et le R1.0, il est lui-même entraîné sur une base de DeepSeek V3. Et V3, il y avait des restrictions à l’usage, mais qui n’existent plus dans DeepSeek R1, qui est complètement MIT. Donc qu’est-ce qu’on voit ? C’est pas super clair, mais il y a un truc qui est clair en tout cas, c’est qu’ils ont commencé à enlever des restrictions. Alors la raison, ça peut être géopolitique, ça peut être commercial, ça peut être plein de raisons, mais clairement, là ils ont dit : « Nous, on ne met plus de restrictions sur l’utilisation des modèles. » En tout cas, on y va. En revanche, oui, les datasets, pas de détails, etc. Et on donne du code. Ils ont fait aussi autre chose. Ils ont mis en place la distillation. La distillation, en gros, c’est qu’on utilise un gros modèle, donc DeepSeek R1, qui a été super entraîné, qui a ses capacités de self-reflection, etc. Et on va faire du knowledge transfer. Il va servir à éduquer un modèle plus petit qui existe pour l’aligner encore un peu plus.

Et ils l’ont fait avec des modèles ouverts, type Qwen (donc Alibaba) ou LLaMA, en version 3.1, 3.3. Donc là, ce qu’il faut voir dans ces cas-là, c’est que les licences de ces modèles distillés, ils gardent les licences des modèles originaux. Donc c’est pour ça qu’il ne faut pas se mélanger. Des fois, on peut faire une bitmask dans les modèles et tout. Donc un modèle distillé LLaMA 3, ou s’il y a un LLaMA 4, là attention, en Europe, par exemple, ça pourrait poser des problèmes. Ce genre de choses.

Et puis, on a Mistral, cocorico, basé en France, on va dire. C’est un peu le même profil. C’est-à-dire que les modèles sont ouverts. On n’a pas beaucoup d’informations sur les datasets. En revanche, on a beaucoup de composants et d’aides pour aller faire des modèles fine-tunés. Ce qui est intéressant avec Mistral, c’est aussi l’innovation au niveau business. C’est-à-dire qu’on voit des choses qu’on a bien connues dans l’open source : version communautaire, version entreprise. Donc voilà, Mistral va aussi fournir, là sous licence bien commerciale fermée, des trucs optimisés, adaptés à l’entreprise, qui s’intègrent facilement, etc.

Donc on voit que là, on retrouve des choses qu’on a connues dans le monde de l’open source, avec des business models qui se cherchent, qui se créent, etc. Ils ont même innové avec la notion de sustainable openness sur CodeStral. Donc CodeStral, c’est un modèle spécialisé pour la génération de code, où là ils ont créé la Mistral Non-Public Production License. Donc en gros, c’est dit : vous pouvez faire ce que vous voulez à titre personnel, et tout, mais si vous l’utilisez en prod, ou faire des API ou du SaaS avec… ben en fait non, c’est pas ouvert. Attention là aussi. Voilà, ça dépend de quoi on regarde. Mais ce qui est intéressant avec Mistral, c’est qu’ils ont toutes ces différentes postures-là. Ils sont en train de regarder un petit peu comment peut-être trouver leur modèle économique aussi.

Raphaël Semeteys

LLMs dérivés

Bon, j’accélère un petit peu. À partir du moment où on a des modèles fondamentaux qui sont ouverts, plus ou moins ouverts, qu’est-ce qui se passe ? Il y en a d’autres qui les prennent et qui font des versions fine-tunées dessus.

Donc là, c’est ce qui s’est passé avec Dolly. Donc Dolly, c’est un modèle fait par Databricks. Ils sont basés sur GPT-J d’EleutherAI. Donc ils héritent des niveaux d’ouverture de GPT-J sur le modèle de pre-training. Et puis, ils ont créé leur propre modèle de fine-tuning. Alors, ils ont fait du crowd quelque chose quelque chose en interne dans l’entreprise pour créer ce modèle-là. Ils autorisent complètement à le réutiliser. On n’a pas d’information sur un éventuel reward model, et le code, lui, est disponible.

BLOOMChat, on en déduit sur quoi il est basé : sur BLOOM, plus l’orientation chat. Ce qui est intéressant, on voit là qu’ils auraient utilisé le dataset de Dolly pour faire le fine-tuning. Donc là, on commence à avoir cette logique de collaboration, d’innovation collective qui se met en place.

//TODO : relire à partir d’ici

Et Laion aussi, qui sont des datasets qui viennent de communautés, en Allemagne par exemple. Pas d’information non plus publique en tout cas sur un reward model. Et puis là, il réutilise Open RAIL, de toute façon, qui est dans l’écosystème BLOOM pour le code.

Zephyr, c’est intéressant parce que c’est une initiative de Hugging Face, que vous connaissez bien, qui a dit « ah ben tiens, nous, on va fine-tuner Mistral ». Donc là, ils fine-tuned de Mistral, mais eux, ils sont pareil, ils ont utilisé des résultats d’OpenAI pour faire le fine-tuning. Donc bon, c’est plus un projet de recherche, un POC, je ne sais pas comment le dire, avec des exemples, quand même.

Et puis les deux derniers, ils sont intéressants, parce que ça, c’est des communautés qui ont dit : bon, alors nous, on essaie de faire les modèles les plus ouverts dès le début. On veut avoir quelque chose d’ouvert. Donc LLaMA 360, bon tout est dans le nom. Donc ça, c’est le nom de l’organisme. Après, il y a plusieurs versions : Under, etc., dans les modèles. Donc là, les poids et les modèles, ils sont complètement open. Ils listent vraiment les datasets qu’ils utilisent et ils font attention aux licences. Donc RedPajama, qui sont des datasets connus et utilisés par pas mal d’autres projets. Ils réutilisent les datasets de Falcon, de tout à l’heure, StarCoder, etc. On a des informations sur les datasets de fine-tuning qu’ils ont utilisés, mais c’est un peu compliqué de vraiment savoir où on en est. C’est pour ça que j’ai mis trois, parce que c’est un petit peu cafouillis. Mais quand même, c’est leur idée. Pas d’informations sur un reward model potentiel. Le code est disponible.

Et puis Olmo, c’est pour l’Allen AI Institute aux États-Unis, qui est intéressant parce qu’ils ont vraiment fait l’effort d’abord de créer leur propre dataset, à la fois de pre-training et de fine-tuning. Ils ont mis des licences très claires dessus, mais du genre Responsible License, c’est pour ça qu’ils en ont trois. Et eux, ils ont fait un truc bien : c’est que le reward model, il est clair, il est sous licence MIT, UltraFeedback, et il peut être réutilisé, etc. Donc là, on a quelque chose qui commence à devenir de plus en plus open. Donc ça, c’est intéressant.

Après, on peut quand même avoir cette notion à nouveau de l’IA responsable. Donc là, par exemple, sur Olmo, c’est à nouveau « ne faites pas le mal ». Mais on voit que là, « ne faites pas le mal », c’est une autre définition. Là, c’est « pas d’usage militaire » parce que la guerre, ce n’est pas bien. Il faut préciser que ça a été généré par une machine. Si vous faites quelque chose qui vient de ça, vous ne pouvez pas faire de choses qui sont liées avec la biométrie, ou commencer à faire de la prédiction dans des choses qui ont un rapport avec la loi, etc.

Donc c’est pour ça que « le mal, ce n’est pas bien », c’est sûr. Mais le mal en Chine et le mal aux États-Unis, est-ce que c’est le même qu’en Europe ? C’est pour ça qu’il faut regarder dans les détails de ce que ça veut dire de « ne pas faire le mal ». Parce que ça pourrait très bien être « ne faites pas des trucs médicaux ». Si vous êtes une boîte, une startup, qui est dans le domaine médical, et qui veut innover là-dessus, vous vous mettez au courant avant de commencer à construire toute une solution sur ce genre de composants.

Et puis, à suivre, je vais commencer à accélérer ces derniers-là : Open R1 et OpenSeek, ça c’est juste pour montrer la capacité de mutation et d’adaptation de l’open source, du mouvement collaboratif et open, à partir du moment où il y a des choses qui sont ouvertes. Donc Open R1, c’est Hugging Face qui dit : « DeepSeek a publié tout, comment ils ont fait, toutes leurs astuces, leurs tricks, etc., pour faire Open R1 et rentrer en concurrence avec OpenAI, nous on va refaire la même chose, mais en complètement open. »

Et puis il y a OpenSeek, pareil, c’est les mêmes, mais c’est à Pékin, dans l’Institut de recherche d’IA de Pékin, qui disent : « Nous, on va faire OpenSeek, et c’est la même idée. On va essayer d’ouvrir au maximum les choses. » Donc, une fois qu’on a commencé à ouvrir les choses, il y a cet aspect communautaire qui se met en place. Et c’est ça que j’appelle le moment Linux, où il y a vraiment des choses qui se passent. Parce que l’ouverture et la transparence, ça favorise l’innovation collective. À un moment donné, il y a quelqu’un qui va reprendre et qui va réutiliser un dataset de là, etc., et construire son nouveau modèle.

Raphaël Semeteys

J’ai parlé beaucoup de Moments Linux. Je l’ai analysé via cette notion de licence pour qu’on puisse comprendre un petit peu le positionnement des différents acteurs. Et on le voit, ce positionnement, il change. On l’a vu, là. Maintenant, il y a OpenAI qui dit « Ah, on va peut-être faire de l’open weight. » Parce que sinon, peut-être qu’on va se faire dépasser. C’est intéressant.

Autres aspects du moment Linux

Il y a d’autres aspects, il y a d’autres éléments qui, pour moi, participent de ce que j’appelle le Moment Linux, c’est-à-dire le moment où Linux et l’open source commençaient à changer l’IT. Là, j’en ai mis trois.

Il y en a un, c’est la partie outils collaboratifs et écosystèmes. C’est-à-dire qu’à partir du moment où on a de l’ouverture et qu’on a de la réutilisation, forcément, il y a de la collaboration qui se met en place et ça fait émerger des écosystèmes, qui ont l’habitude de travailler ensemble. Et ces écosystèmes-là, ils vont soit se baser sur des outils, soit ils vont créer ces outils pour collaborer.

Ça, c’est quelque chose qu’on a bien vu avec l’essor d’Internet et puis de l’open source de manière générale. Donc, j’en ai cité quelques-uns ici. arXiv, ce n’est pas du tout quelque chose qui a été créé par l’open source ni par l’IA. Mais par contre, c’est devenu une plateforme vraiment sur laquelle c’est quoi la référence arXiv de ton papier de recherche, où est-ce que je peux avoir la description de ce que tu as fait.

Jupyter, j’étais juste un autre exemple. Cette notion-là qui venait un petit peu du monde des data scientists, etc. Mais cette manière de présenter et d’expliquer et de démontrer des recettes de data science, et notamment de GenAI, avec des notebooks, c’est quelque chose qui a été complètement adopté, et maintenant qui est rentré dans les usages. Et d’ailleurs, maintenant, on peut faire tourner autre chose que du Python dans les notebooks, etc.

Hugging Face, c’est le GitHub de l’IA. Donc ça, c’est vraiment… là, toutes les communautés sont présentes. Elle est où ta model card ? Sur Hugging Face. C’est là où il faut être.

Ce qui est intéressant aussi, c’est que dans les innovations qui sont faites, on l’a vu, il y a des innovations qui se font pas que au niveau technique, mais au niveau des business models, comme on l’a connu dans l’open source. Moi, j’ai un modèle community enterprise, j’ai un modèle un peu open core, ensemble. Il y a des choses qui sont en train de se passer là. Mais donc, il y a tous ces écosystèmes qui vont générer, qui vont innover, vraiment.

Ensuite, il y a des choses qui sont en train de se passer au niveau aussi de l’optimisation et de la démocratisation des modèles eux-mêmes. C’est pour ça que je parle de community & company.

D’abord, au niveau hardware, déjà avec les puces, parce que là, la hype a explosé en 2020. Le temps de construire des nouvelles puces au niveau industrie, c’est 4 ans. Là, on arrive dans la période où tout le monde va sortir des puces AI. On va avoir des puces AI dans tous les PC, on va avoir des puces AI dans les téléphones. Ça va commencer à se généraliser, parce que les GPU, il se trouve que c’est du calcul matriciel, les réseaux de neurones. Donc ça tombait bien, c’est la même chose que faire les cartes graphiques. Mais à la base, ce n’était pas prévu pour ça. Donc là, on va créer encore des CPU ou ce que j’appelle des XPU, qui sont encore plus optimisés, qui vont coûter moins cher, et qu’on va retrouver partout. Donc ça, c’est sûr que ça va démocratiser à fond.

Il y a des choses qui se font aussi au niveau software, sur les modèles eux-mêmes. Comment, déjà, les small language models, on l’a vu, par exemple, avec la distillation, c’est-à-dire, OK, on a des grands modèles qui vont servir à entraîner des plus petits modèles, plus spécialisés, du coup, pour pouvoir faire tourner dans les téléphones, ou avoir des usages qui sont plus frugaux, on va dire.

On a la quantization. La quantization, qu’est-ce que ça fait ? Ça permet de réduire un peu la qualité des modèles. En gros, c’est des vecteurs dans des espaces vectoriels. Et donc, plutôt que de mettre des floats [nombres flottants], on va mettre moins de précision. Et donc ça, ça permet d’avoir un modèle plus petit, qui est peut-être de moins bonne qualité, mais qui va pouvoir tourner sur des CPU classiques, ou dans des mobiles, etc.

Et puis, il y a tout l’aspect aussi sur la décentralisation, que moi, je crois beaucoup, puisque c’est comme ça qu’on a fait Internet, l’open source, etc. C’est re-décentraliser l’entraînement et l’inférence des modèles. Donc, comment faire ça et ne pas avoir cette vision unique de « il faut avoir le plus grand modèle avec les plus grosses salles machines et deux centrales nucléaires à côté pour les faire tourner ». Est-ce qu’on a d’autres manières de faire aussi ? Et c’est en plus, ce n’est pas à la place de, comme on l’a vu avec, par exemple, l’open source.

Raphaël Semeteys

Et puis, dernier aspect, c’est les outils, les frameworks, les communautés qui se créent autour des modèles, cette fois-ci, puisqu’ils sont en train d’être démocratisés. Et là, pour moi, c’est ça aussi le fait qu’on rentre dans la commoditisation. C’est comment on utilise ces briques-là, nous, dans l’IT. Moi, architecte, quand je vais concevoir des solutions, comment j’intègre les modèles dans mes architectures.

Et donc là, qu’est-ce qu’on voit ? On le fait, quand c’est dans ce mode un peu collaboratif, ça se fait à la mode Unix. Donc, do it once, but do it well. Donc, je ne vais pas chercher à faire le truc qui fait tout, je vais chercher à faire quelque chose qui le fait super bien. Parce que je sais que quelqu’un d’autre va faire quelque chose de super bien à côté, et je vais pouvoir m’associer, et à la fin, ça va donner un OS, et puis ça va s’appeler Linux, et puis ça va dominer le monde, par exemple.

Mais quand on fait ça, forcément, si je compte sur les autres pour m’intégrer, je vais faire émerger des standards. Puisqu’il faut de l’interopérabilité. Donc, ça génère. Tout ça, ça va générer de l’interopérabilité et des standards. Et donc, ça organise un petit peu tout cet écosystème-là.

Donc là, j’en ai cité dans un domaine qui est un peu connexe, mais c’est les agents, parce que c’est à la mode. Donc, j’ai placé un petit peu agent. Je suis passé au début, à la fin, voilà, avec MCP, tout le monde parle de MCP. Ou A2A, comment faire communiquer des agents les uns avec les autres. On voit bien qu’il y a des standards, des protocoles qui sont en train de se mettre en place. Et la bonne nouvelle, c’est que quand on a commencé à faire des protocoles interopérables, ça donnait Internet. Donc là, il y a de l’espoir.

Et puis, j’ai cité LangChain, c’en est un parmi d’autres. Il est connu. Là, il est intéressant pour moi parce qu’il montre à quel point LangChain, d’abord, c’est en Python, parce que Python, c’est la data science, ça vient de ce monde-là. Et puis, il y a une version JavaScript, et puis il y a LangChain4j. Je suis sûr qu’il y a eu plein de réunions. Je connais des gens qui sont comme des spécialistes des domaines, dans la salle.

Et donc, on voit que ça se démocratise et que ça sort du monde de la data science, et ça rentre dans le monde de l’informatique, en tout cas que moi je connais, et des systèmes que j’ai l’habitude de concevoir.

C’est la fin de notre exploration

Donc, en conclusion, c’est la fin de notre exploration. J’espère que vous avez un peu moins peur. Vous avez des clés, une boussole, etc. Qu’est-ce qu’on a vu ?

On a vu qu’entre un positionnement où on a des API complètement fermées, black box, payantes, et quelque chose que des gens essaient de créer, qui serait la free AI comme As in Freedom et pas As in Free Beer, il y a plein de positionnements différents et puis c’est très, très mouvant. Il y a plein d’acteurs qui arrivent, qui se créent, qui s’en vont, qui se réassocient, etc. Et on a un modèle qui est en train d’émerger que maintenant on appelle Open Weight. On ne dit plus trop Open Source, ça ne fait pas trop tendance maintenant. Il faut dire Open Weight. Mais vous avez compris à quoi ça correspond.

Ce qu’il faut retenir, qu’est-ce qu’on a appris aussi en observant un peu ces créatures sauvages ?

  • C’est qu’attention quand même aux modèles fondamentaux sur lesquels c’est basé, parce qu’on va hériter de certaines restrictions ou d’ouvertures, etc.
  • Attention aux datasets qu’on utilise, parce que ces datasets peuvent venir aussi avec des contraintes, etc.
  • Et puis attention aux clauses de concurrence qui vont être mises par des acteurs, parce que c’est du positionnement aussi business et stratégique et aux restrictions liées aussi à l’IA responsable

Voilà et si je reviens sur ma courbe du début là où je disais on est dans le moment Linux et puis je reconnais une courbe d’adoption que j’ai connue avec l’open source etc, bah effectivement on est passé de la recherche ouverte à aujourd’hui un marché hyper concurrentiel où voilà c’est encore des annonces, il y a beaucoup de buzz c’est parfois difficile un peu d’y voir clair là-dedans parce que il y a beaucoup de feuillages dans la jungle c’est vraiment un puma que j’ai vu, je sais pas.

Bref, on arrive vers l’écosystème compétitif qui génère vraiment la commoditisation parce qu’on va coopérer sur ces briques commodity et on va continuer à innover par-dessus.

L’ouverture, ça favorise effectivement la réutilisation et la collaboration. Et cette collaboration-là, c’est ça qui entraîne la commoditisation. En fait, il ne faut plus parler pour moi de moment Linux. Là, on est passé dans le mouvement. C’est une lame de fond qui arrive et qui va transformer, un petit peu comme l’open source l’IT, ça ne veut pas dire que ça va remplacer.

Raphaël Semeteys

Initiatives d’évaluation de l’ouverture des LLMs

Et j’ai fini après, c’est terminé. AI et open source, c’est complètement compatible. Depuis, il y a d’autres organismes, il y a d’autres initiatives pour étudier l’ouverture des modèles. Je vous en ai mis quelques-uns ici.

OSI (Open Source Initiative), ce qu’ils ont fait, c’est très important. Il y a des polémiques sur les data sets et tout, mais au-delà de ça, il fallait que quelqu’un se saisisse et quelqu’un en qui on a confiance, donc l’OSI, avec un process ouvert pour le faire, qui définissent qu’est-ce que c’est Open Source AI parce que c’est utilisé dans l’AI Act, par exemple. Donc, le législateur, il dit, il y a une exception si vous êtes une AI Open Source. Ah ouais, mais c’est quoi ? Donc là, l’OSI, il a fait le boulot. Donc après, il y a des discussions qui vont se faire.

La Linux Foundation qui a participé aussi à son modèle framework pour évaluer. Il y a des choses qui existent dans le monde de la recherche, mais c’est une centaine de batteries de critères, etc. C’est lourd, c’est un peu compliqué. Il y a des choses qui se passent aussi au niveau du gouvernement français.

Voilà donc j’espère que vous y voyez un peu plus clair que ça vous a intéressé et puis quand on prend du recul on se rend compte que cette jungle là il y a quand même des choses qui sont en train de se passer ça s’organise et finalement c’est pas si le chaos que ça.

lors je sais pas, Raphiki, j’ai vu qu’il a piqué une espèce de vieille tablette Maya ou Astèque, je sais pas trop ce que c’est si vous voulez me suivre sur les réseaux sociaux ou de filer en aiguille et retrouver les slides du truc je crois quand même que c’est un QR code donc vous pouvez le scanner.

Voilà, merci de votre attention je peux enlever ça d’ailleurs on n’est plus dans la jungle je ne sais pas si on a le temps pour des questions sinon ce sera après merci en tout cas.

Liens utiles

Production de l’épisode

  • Enregistrement en direct à Devoxx France, Paris en avril 2025
  • Conférence : Raphaël Semeteys
  • Moyens techniques : Devoxx France
  • Transcription : Walid Nouh

Licence 

Ce podcast est publié sous la licence CC BY-SA 4.0 ou ultérieur.

, , ,

/publica