Personne ne réalise ce que Yann LeCun vient de créer
By Grand Angle Nova
Summary
Topics Covered
- Le paradoxe de Moravec : un enfant surpasse un LLM en physique intuitive
- L'intelligence n'est pas la maîtrise du langage, c'est la maîtrise de la causalité
- « More is different » : la course aux gigawatts est une impasse
- 15 millions de paramètres contre des trillions : la preuve de concept du World Model
- L'IA qui réagit vs l'IA qui anticipe : le champion de tennis metaphor
Full Transcript
Aujourd'hui, nous vivons une époque de profusion technologique. Il ne se passe
profusion technologique. Il ne se passe pas un mois sans qu'une nouvelle version de Chat GPT, de Claude ou de Gemini ne viennent nous arracher un cri d'étonnement. Rendez-vous compte, nous
d'étonnement. Rendez-vous compte, nous avons désormais des machines capables de réussir l'examen du barreau, de diagnostiquer des pathologies rares que des médecins chevrenés ont manqué ou de rédiger des poèmes à la manière de
Baudler en moins de 3 secondes. Pour
beaucoup, nous avons donc atteint le sommet. Nous avons créé l'intelligence.
sommet. Nous avons créé l'intelligence.
Mais ne serions-nous pas en train de confondre la carte avec le territoire ?
Que ces modèles donnent l'illusion de comprendre le monde alors qu'il ne manipule en réalité que des représentations de ce monde ? Le vrai
problème, celui qui empêche Yan Lequin, l'un des trois pères fondateurs du deep learning de dormir, c'est le paradoxe de mort avec. Les tâches qui nous
mort avec. Les tâches qui nous paraissent intellectuellement complexes sont souvent plus faciles à reproduire pour une machine que celle qui nous semble intuitive et évidente. Par
exemple, pourquoi un enfant de 24 mois qui ne sait pas encore aligné correctement une phrase arrive à comprendre la gravité après avoir jeté sa cuillère par terre trois fois ? qu'un
LLM a besoin de digérer l'intégralité de l'internet, des pétas octuler péniblement une conversation sur la physique. J'exagère mais c'est ça le
physique. J'exagère mais c'est ça le principe du paradoxe de Morabec. Donc si
vous interrogez Chat GPT sur une situation physique comme une tasse de café en équilibre sur le rebord d'une table, il va vous répondre avec brio en citant Newton et les lois de la gravité.
Mais ne vous y trompez pas, Lia ne calcule pas la chute. Elle récite le script de la chute. Aujourd'hui,
l'industrie fait un paris très coûteux en ressources.
Si l'on ajoute assez de données, assez de GPU et assez de textes, la compréhension du monde finira par émerger de la manipulation des mots.
Alors, on assiste à une course au MAW et maintenant au gigw pour faire les plus gros data centers possibles. Yan Lequin,
lui, dit que c'est une impasse. Même
quand il était chez Meta, il déclarait à qui voulait l'entendre que le modèle des LLM ne l'intéressait plus vraiment.
Selon lui, nous essayons d'apprendre à quelqu'un à piloter un avion en lui faisant lire des millions de manuels de vol sans jamais le laisser toucher un cockpit. En conséquence de quoi, il opte
cockpit. En conséquence de quoi, il opte pour une thèse pour le moins singulière qui va à contre-courant de tout ce que font Google, Microsoft ou Open AI.
L'intelligence n'est pas la maîtrise du langage, c'est la maîtrise de la causalité.
Comprendre le monde, ce n'est pas prédire le mot suivant dans une phrase, c'est être capable de simuler dans sa tête ce qui va se passer. Si je pousse,
si je tourne ou si je lâche, quelles seront les conséquences ? Le parle d'IA qui disposerait de ce qu'il appelle un modèle du monde. Et vous allez voir que pour accomplir ce miracle, le casin n'a
pas eu besoin de super calculateur à un milliard de dollars pour faire la preuve de concept, mais d'une intuition mathématique dont la promesse est de renvoyer nos LM modernes au musée de la préhistoire algorithmique. Pour
préhistoire algorithmique. Pour comprendre pourquoi il fait ces sessions, il faut d'abord comprendre comment fonctionnent les IA que vous utilisez tous les jours. Que ce soit Chat GPT, Cloud ou Gemini, la logique
est la même. C'est ce que l'on appelle des modèles autorégressifs. Autrement
dit, même si les techniques ont beaucoup évolué, le principe de base, c'est la prédiction du prochain token de manière probabiliste. Certes, Lia a dépassé le
probabiliste. Certes, Lia a dépassé le stade de la simple probabilité statistique pour simuler une forme de réflexion logique, mais le problème c'est qu'en restant à la surface des mots, Lia ne touche jamais la structure
du monde. Pour elle, le concept de pomme
du monde. Pour elle, le concept de pomme n'est qu'un vecteur mathématique entouré d'autres vecteurs comme rouge, fruits ou Newton. Mais elle n'a aucune idée de ce
Newton. Mais elle n'a aucune idée de ce qu'est la masse d'une pomme, de sa texture sous la dent ou de la façon dont elle rebondit sur le sol. C'est
précisément pour cela que les IA hallucinent. Vous avez sans doute déjà
hallucinent. Vous avez sans doute déjà vu ces erreurs absurdes où une invente une source historique où vous affirme avec un plomb qu'un kil de plume est plus lourd qu'un kil de plomb. Alors
pour beaucoup, c'est un bug qui se règle de version en version. Mais ça n'est pas si simple que ça. Comme le modèle n'a pas de fondation physique, pas de modèle interne de la réalité pour vérifier ses
dir, il est condamné à rêver des faits en permanence. Une générative, par
en permanence. Une générative, par définition, ne fait que générer. Et en
réalité, ce problème dépasse largement l'IA. Il touche au langage lui-même.
l'IA. Il touche au langage lui-même.
Face à ça, la réponse de la silicone vallée a été simple. More is different.
Plus de données, plus de serveurs et plus de paramètres. Encore une fois, on ne peut pas dire que cela ne marche pas car ce que l'on appelle les scaling lows, à savoir les courbes de progression à chaque itération, sont
bien là, elles fonctionnent et elles délivrent. Mais le problème c'est quand
délivrent. Mais le problème c'est quand même la débauche de moyens pour y arriver au point qu'un certain Elon Musk veut mettre des gigaw et des gigaw en orbite autour de la Terre. Mais pour le casin, ça ne marchera pas comme ça
éternellement. Vous en conviendrez, on
éternellement. Vous en conviendrez, on ne peut pas apprendre à conduire en lisant le bouquin de l'auto-école à l'infini. À un moment donné, il faut
l'infini. À un moment donné, il faut ressentir l'embrayage, comprendre l'inertie de la voiture, anticiper le mouvement du piéton sur le trottoir.
Bref, des information qui n'existe pas dans le texte mais dans la physique. Le
cas nous affirme que si nous voulons des robots qui rangent notre maison sans tout casser ou des voitures autonomes à qui l'on peut à peu près confier sa vie et la vie de nos enfants, nous devons
changer de moteur. Nous devons passer à l'IA qui imite, à l'IA qui simule. Face
à l'impasse des modèles de langage, Yann Lequin ne propose pas d'ajouter des serveurs, il propose de changer de philosophie. Alors avant d'aller plus
philosophie. Alors avant d'aller plus loin, il faut d'abord situer le bonhomme. Déjà prituring, alors pour
bonhomme. Déjà prituring, alors pour ceux qui ne connaissent pas, on dit souvent que c'est l'équivalent du prix Nobel en informatique. Ancien chef de la recherche IA chez Meta pendant 12 ans et
surtout c'est un pionnier de l'IA car dans les années 80, il a été l'un des grands artisans de la révolution des réseaux de neurones convolutionnels qui ont été les premiers algorithmes IA
réellement capables de quelque chose et que l'on utilise encore aujourd'hui. et
je passe sur le reste de son œuvre car cela prendrait trop de temps à décrire et expliquer car c'est quand même bien technique. Donc bon, le gars à 65 ans
technique. Donc bon, le gars à 65 ans n'est clairement pas un lapin de 6 semaines. Il a passé les 40 dernières
semaines. Il a passé les 40 dernières années à essayer de reproduire informatiquement les mécanismes du cerveau biologique. Et conclusion, pour
cerveau biologique. Et conclusion, pour lui, l'IA doit cesser d'être une encyclopédie pour devenir un simulateur mental. Aujourd'hui, quand vous voyez
mental. Aujourd'hui, quand vous voyez une IA comme Sura générer une vidéo, vous avez l'impression qu'elle comprend la physique tellement c'est bien fait.
Mais en réalité, elle recompose la scène à partir de blocs d'images sans réellement comprendre les lois de la physique qui s'appliquent derrière.
C'est précisément la limite pointée par le qu. Imaginez un ballon qui rebondit.
le qu. Imaginez un ballon qui rebondit.
Un modèle génératif tente de reconstruire la scène morceau par morceau, image par image, comme s'il devait recréer toute la scène en permanence. Une dépense d'énergie
permanence. Une dépense d'énergie colossale pour un résultat souvent instable car le monde est trop complexe pour être reconstruit image par image.
Pour vous dire ce que vous voyez inonder les réseaux sociaux sur Site D par exemple est impressionnant mais ce que vous ne savez pas c'est que souvent il a fallu de nombreuses itérations pour arriver à produire le rendu final qui
colle toujours et parfaitement à la physique sans qu'il y ait des rebonds bizarres ou des choses qui ne clipent pas comme elles devraient. La vision de Lequin, c'est de ne plus reconstruire image après image, mais de comprendre la
règle derrière le mouvement. Un ballon
tombe, rebondit puis ralenti. OK, c'est
la transition de la génération vers la prédiction. Et j'avoue que l'idée est
prédiction. Et j'avoue que l'idée est très excitante. Le cœur technique de
très excitante. Le cœur technique de cette révolution s'appelle JP Joint and Beding Predictive Architecture.
Architecture prédictive à plongement conjoint en français. Bah, je sais que là ça vous avance pas plus que ça une fois qu'on l'a dit en français. L'idée
est d'arrêter de prédire les pixels ou les mots. À la place, le modèle apprend
les mots. À la place, le modèle apprend à projeter la réalité dans ce que l'on appelle un espace latent. Disons qu'un
espace latent est un monde des concepts.
On ne dessine pas la balle qui tombe. On
calcule la trajectoire de l'objet. En
travaillant sur des embedings, des représentations mathématiques abstraites plutôt que sur des données brutes. Lia
de Lequin gagne une efficacité phénoménale. Elle ne s'encombre plus du
phénoménale. Elle ne s'encombre plus du détail, elle saisit l'essence. En
apprenant dans cet espace latent, le modèle développe une forme d'abstraction stratégique. Dans une vidéo d'une rue
stratégique. Dans une vidéo d'une rue passante, un modèle classique s'épuise à calculer le mouvement de chaque feuille d'arbre, le reflet du soleil sur une flaque d'eau et cetera. C'est ce que
l'on appelle du bruit pour autant, des informations inutiles pour la prise de décision globale. L'architecture JP,
décision globale. L'architecture JP, elle apprend à filtrer le bruit pour ne garder que les variables qui comptent pour l'action. La voiture qui débouche à
pour l'action. La voiture qui débouche à gauche, le piéton qui hésite, le feu qui passe au rouge. OK, c'est exactement ce que fait votre cerveau. Quand vous
traversez la rue, vous ne calculez pas la position de chaque molécule d'air.
Vous simulez les trajectoires critiques.
Le veut donner à Lia la capacité de faire ce tri. En quittant la dictature du pixel, il lui permet enfin de se concentrer sur la causalité. Il commence
à disposer d'un simulateur interne capable de tester des hypothèses. Si je
fais ceci, il va probablement se passer ça. Mais une théorie, aussi brillante
ça. Mais une théorie, aussi brillante soit-elle, reste une théorie. Et pour
valider cette vision, il fallait une preuve. Cette vision n'est plus une
preuve. Cette vision n'est plus une simple intuition académique. En mars
2026, sa start-up parisienne a levé plus d'un milliard de dollars sur une valorisation de 3,5 milliards pour développer des IA capables de comprendre
le monde physique, de raisonner, de planifier et de mémoriser sur le long terme. Autrement dit, on n'est plus face
terme. Autrement dit, on n'est plus face à une hypothèse de chercheur mais à un véritable pari industriel. Cette preuve,
c'est le world model et vous allez voir que ces performances remettent en question tout ce que nous pensions savoir sur la puissance nécessaire pour créer une intelligence. Attention,
toutefois, on parle ici d'une preuve de concept extrêmement prometteuse, pas encore d'un cerveau artificiel généraliste prêt à piloter le monde réel demain matin. Cette vision d'une
demain matin. Cette vision d'une physique qui le la martelle depuis des années, mais jusqu'ici elle restait difficile à concrétiser. Les premières
approches se heurtaient à des défis techniques majeurs qui limitaient leur efficacité. L'un des principaux
efficacité. L'un des principaux problèmes, c'est ce que les chercheurs appellent l'effondrement de la représentation. Dites-vous que Lia est
représentation. Dites-vous que Lia est une tricheuse par nature ? Pour
minimiser ses erreurs, elle peut trouver un raccourci mathématique représenter tous les objet de la même manière. Un
ballon qui tombe ou une voiture qui passe finissent codé de la même façon.
Résultat, une prédiction parfaite sur le papier mais une compréhension nulle de la réalité. Pour empêcher cette triche,
la réalité. Pour empêcher cette triche, l'équipe de Leain a introduit une innovation majeure dans ce papier de mars 2026, le Creeg Sketch Isotropic Gan
regularizer.
Bon, pour être précis, le Seigregistait déjà depuis la fin de l'année dernière, mais pour la première fois, il est intégré dans une architecture simple qui fonctionne de bout en bout.
Rassurez-vous, derrière ce terme horrible, l'idée est simple. Forcez Lia
à rester honnête. Concrètement, le CG impose des contraintes sur l'espace latent pour éviter que toutes les représentations s'effondrent en un seul point. Imaginez que Lia doivent classer
point. Imaginez que Lia doivent classer des objets. Sans contrainte, elle peut
des objets. Sans contrainte, elle peut tout mettre dans la même catégorie pour aller plus vite. Si l'en empêche, elle est obligée de faire des distinctions.
Et pour faire des distinctions, elle doit comprendre ce qu'elle voit, ce qui la pousse à capturer les nuances de la physique. Mais là où le world model se
physique. Mais là où le world model se différencie davantage, c'est dans les chiffres. À l'heure où l'industrie
chiffres. À l'heure où l'industrie construit des infrastructures pensées pour des LLM à l'échelle du trillion de paramètres, le world model n'en utilise que 15 millions. Et en plus, le modèle
ne tourne pas sur un cluster de serveur à un milliard de dollars. Il s'entraîne
sur un seul GPU en seulement quelques heures. Oui, on parle d'un petit modèle
heures. Oui, on parle d'un petit modèle qui utilise environ 200 fois moins de token, tout en se montrant 48 fois plus rapide pour planifier une action physique que les architectures
génératives actuelles. Enfin, la manière
génératives actuelles. Enfin, la manière dont ce modèle apprend est révolutionnaire. Il ne lit pas
révolutionnaire. Il ne lit pas Wikipédia, on ne lui donne pas de petites images avec des étiquettes. Non,
le world model apprend comme quelque part un bébé. On lui montre des vidéos brutes de Pixel. Il observe essa de prédire l'image suivante dans son espace
latent. Donc en projetant des règles, il
latent. Donc en projetant des règles, il se trompe et il ajuste son modèle interne. C'est de l'apprentissage
interne. C'est de l'apprentissage autosupervisé. En quelques heures
autosupervisé. En quelques heures d'entraînement sur un simple ordinateur, le modèle finit par sembler déduire des lois de la physique de ce qu'il observe.
Il comprend qu'un objet ne peut pas traverser un mur, qu'une balle doit rebondir et que la gravité est une constante. On ne lui a pas appris la
constante. On ne lui a pas appris la physique, il la découvre par l'observation. Et là, c'est toute la
l'observation. Et là, c'est toute la différence avec les systèmes de Tesla pour ces voitures autonomes.
Aujourd'hui, une Tesla s'appuie sur d'immenses volumes de vidéos réels pour apprendre à percevoir et anticiper le monde routier. La promesse du world
monde routier. La promesse du world model de Lequin est différente. Au lieu
d'apprendre par accumulation de cas, il cherche à apprendre directement les dynamique du monde physique. Le système
ne se compte plus d'imiter. Il tente de modéliser les interactions entre les objets. Nous commençons donc à voir
objets. Nous commençons donc à voir émerger des systèmes capables de simuler le monde de manière stable, légère et rapide. Et donc après cette demander si
rapide. Et donc après cette demander si ça pouvait marcher, désormais il faut se demander ce que nous allons bien pouvoir en faire. Si le world model provoque une
en faire. Si le world model provoque une telle onde choc, ce n'est pas seulement parce qu'il est plus petit ou plus rapide, c'est parce qu'il change la nature même de ce qu'un ordinateur peut
faire. Rendez-vous compte qu'on est à
faire. Rendez-vous compte qu'on est à deux doigts de passer d'une IA qui réagit à une IA qui anticipe. Pour bien
comprendre, regardez la différence entre un champion de tennis et un type qui débute. Le débutant court après la
débute. Le débutant court après la balle, il réagit à l'impact. Le
champion, lui, a déjà simulé la trajectoire avant même que la raquette adverse ne touche la balle. Les LM
classiques sont plutôt du type débutant.
Ils réagissent au token précédent pour deviner le suivant. Ils sont bloqués dans un présent perpétuel. Un world
model, lui regarde les secondes à venir.
Il projette constamment des scénarios dans son simulateur interne. Dans
l'architecture de Lequin, le modèle ne se jette pas sur la première action de venue. Il utilise son espace latent
venue. Il utilise son espace latent comme terrain d'entraînement virtuel.
Avant de bouger un bras articulé ou de tourner un volant, Lia teste mentalement des milliers d'actions. Elle évalue le coût de chaque scénario. Si je tourne trop vite ici, la voiture est dérapée.
Si je sers ce verre trop fort, il va se briser. C'est une simulation interne de
briser. C'est une simulation interne de la causalité. Lia ne tatonne plus dans
la causalité. Lia ne tatonne plus dans le réel. Elle exécute la solution
le réel. Elle exécute la solution qu'elle a déjà validé dans sa propre imagination physique. Ce changement de
imagination physique. Ce changement de moteur promet de radicalement transformer au moins de piliers que vous connaissez toutes et toutes bien.
Premièrement, la robotique. Aujourd'hui,
programmer un robot pour ranger un lave-vaisselle est un cauchemar parce que le moindre changement de position d'une assiette peut faire bugger le système. Avec le world model, le robot
système. Avec le world model, le robot pourrait développer une forme d'intuition physique. Il comprendrait la
d'intuition physique. Il comprendrait la fragilité, le poids et l'équilibre.
Deuxièmement, et ce sont les voitures autonomes. Actuellement, une Tesla ou
autonomes. Actuellement, une Tesla ou une Wimo combine déjà perception, prédiction et planification, mais elle reste limitée sur l'anticipation robuste des futurs possibles. Le modèle de
Lequin vise à aller plus loin, comprendre les trajectoires et anticiper les événements. Si un ballon roule sur
les événements. Si un ballon roule sur la route, Lia pourrait inférer qu'un enfant risque de suivre sans attendre de le voir. Je pourrais aller plus loin en
le voir. Je pourrais aller plus loin en vous parlant des gains immenses pour les agents IA qui pourraient précisément concevoir les répercussions tiers d'une action prédéterminée sur un temps long.
Mais vous avez compris l'idée. Alors
dans ce cas, pourquoi est-ce que le cas a levé un milliard de dollars si son modèle est immensément moins gourmand que Noël favori ? Et bien ce n'est pas parce qu'il est moins gourmand qu'il n'aura pas besoin d'immensément de
données et là il va bien falloir les acquérir ces données déjà. De plus, cet article se base sur un world model de 15 millions de paramètres, donc tout petit pour faire une première preuve qui sert
à démontrer la puissance du concept et qui va servir à lever bien plus d'argent derrière car il faudra tout de même des data centers géants à AMI pour développer ses solutions sur des modèles
plus grands et à plus large échelle. En
fait, dans l'idéal, la stratégie est la suivante : devenir un standard mondial pour renverser la table en publiant le code de Sigray. Le but est d'inciter tous les acteurs à abandonner les LLM.
Déjà, première effet qui cool, le monde admettra qu'il avait raison et ça fait toujours plaisir. Deuxièmement, il devra
toujours plaisir. Deuxièmement, il devra produire des licences industrielles carabs devrait rester à la pointe du développement de ces technologies. Bon,
c'est là que je suis un peu plus dubitatif car s'il trouve réellement une nouvelle voie, je ne vois pas ce qui empêcherait les Chinois, les Américains et les autres de repartir avec ce nouveau postulat sur leur propre base
plutôt que de lui laisser la courtoisie de rester devant. Alors oui, ça s'est déjà vu dans le logiciel, mais là on parle de la course mondiale à nous verrons bien. C'est pour ça que pour ma
verrons bien. C'est pour ça que pour ma part, d'un point de vue business, je valorise plutôt l'infrastructure IA plutôt que le développement des algorithmes. Les barrières à la
algorithmes. Les barrières à la concurrence sont plus tangibles avec l'infra car copier des gigawatt, c'est pas la même chose que télécharger un nouveau modèle open source. En tout cas, la course promet d'être passionnante et
on va suivre ces évolutions de très près sur Grand Angova. Le tour de force de Lein, c'est de commencer à démontrer que l'intelligence n'est pas qu'une question de gigantisme. Bien sûr, le gigantisme
de gigantisme. Bien sûr, le gigantisme est nécessaire, mais on peut probablement faire un saut qualitatif en travaillant sur la connexion avec le réel. Et si cette vision l'emporte, le
réel. Et si cette vision l'emporte, le futur de l'IA ne s'écrira plus dans des interfaces textuelles, mais dans la manière dont les machines interagissent.
enfin intelligemment avec notre monde.
En parlant d'infrastructure, Elon Musk nous promet de marginaliser toute l'infrastructure mondiale en déplaçant ces data centers dans l'espace. Rien que
ça. Allez voir cette vidéo si vous voulez comprendre en quoi le projet Terraf pourrait bien changer le monde et même l'univers selon Musk.
Loading video analysis...