LongCut logo

Personne ne réalise ce que Yann LeCun vient de créer

By Grand Angle Nova

Summary

Topics Covered

  • Le paradoxe de Moravec : un enfant surpasse un LLM en physique intuitive
  • L'intelligence n'est pas la maîtrise du langage, c'est la maîtrise de la causalité
  • « More is different » : la course aux gigawatts est une impasse
  • 15 millions de paramètres contre des trillions : la preuve de concept du World Model
  • L'IA qui réagit vs l'IA qui anticipe : le champion de tennis metaphor

Full Transcript

Aujourd'hui, nous vivons une époque de profusion technologique. Il ne se passe

profusion technologique. Il ne se passe pas un mois sans qu'une nouvelle version de Chat GPT, de Claude ou de Gemini ne viennent nous arracher un cri d'étonnement. Rendez-vous compte, nous

d'étonnement. Rendez-vous compte, nous avons désormais des machines capables de réussir l'examen du barreau, de diagnostiquer des pathologies rares que des médecins chevrenés ont manqué ou de rédiger des poèmes à la manière de

Baudler en moins de 3 secondes. Pour

beaucoup, nous avons donc atteint le sommet. Nous avons créé l'intelligence.

sommet. Nous avons créé l'intelligence.

Mais ne serions-nous pas en train de confondre la carte avec le territoire ?

Que ces modèles donnent l'illusion de comprendre le monde alors qu'il ne manipule en réalité que des représentations de ce monde ? Le vrai

problème, celui qui empêche Yan Lequin, l'un des trois pères fondateurs du deep learning de dormir, c'est le paradoxe de mort avec. Les tâches qui nous

mort avec. Les tâches qui nous paraissent intellectuellement complexes sont souvent plus faciles à reproduire pour une machine que celle qui nous semble intuitive et évidente. Par

exemple, pourquoi un enfant de 24 mois qui ne sait pas encore aligné correctement une phrase arrive à comprendre la gravité après avoir jeté sa cuillère par terre trois fois ? qu'un

LLM a besoin de digérer l'intégralité de l'internet, des pétas octuler péniblement une conversation sur la physique. J'exagère mais c'est ça le

physique. J'exagère mais c'est ça le principe du paradoxe de Morabec. Donc si

vous interrogez Chat GPT sur une situation physique comme une tasse de café en équilibre sur le rebord d'une table, il va vous répondre avec brio en citant Newton et les lois de la gravité.

Mais ne vous y trompez pas, Lia ne calcule pas la chute. Elle récite le script de la chute. Aujourd'hui,

l'industrie fait un paris très coûteux en ressources.

Si l'on ajoute assez de données, assez de GPU et assez de textes, la compréhension du monde finira par émerger de la manipulation des mots.

Alors, on assiste à une course au MAW et maintenant au gigw pour faire les plus gros data centers possibles. Yan Lequin,

lui, dit que c'est une impasse. Même

quand il était chez Meta, il déclarait à qui voulait l'entendre que le modèle des LLM ne l'intéressait plus vraiment.

Selon lui, nous essayons d'apprendre à quelqu'un à piloter un avion en lui faisant lire des millions de manuels de vol sans jamais le laisser toucher un cockpit. En conséquence de quoi, il opte

cockpit. En conséquence de quoi, il opte pour une thèse pour le moins singulière qui va à contre-courant de tout ce que font Google, Microsoft ou Open AI.

L'intelligence n'est pas la maîtrise du langage, c'est la maîtrise de la causalité.

Comprendre le monde, ce n'est pas prédire le mot suivant dans une phrase, c'est être capable de simuler dans sa tête ce qui va se passer. Si je pousse,

si je tourne ou si je lâche, quelles seront les conséquences ? Le parle d'IA qui disposerait de ce qu'il appelle un modèle du monde. Et vous allez voir que pour accomplir ce miracle, le casin n'a

pas eu besoin de super calculateur à un milliard de dollars pour faire la preuve de concept, mais d'une intuition mathématique dont la promesse est de renvoyer nos LM modernes au musée de la préhistoire algorithmique. Pour

préhistoire algorithmique. Pour comprendre pourquoi il fait ces sessions, il faut d'abord comprendre comment fonctionnent les IA que vous utilisez tous les jours. Que ce soit Chat GPT, Cloud ou Gemini, la logique

est la même. C'est ce que l'on appelle des modèles autorégressifs. Autrement

dit, même si les techniques ont beaucoup évolué, le principe de base, c'est la prédiction du prochain token de manière probabiliste. Certes, Lia a dépassé le

probabiliste. Certes, Lia a dépassé le stade de la simple probabilité statistique pour simuler une forme de réflexion logique, mais le problème c'est qu'en restant à la surface des mots, Lia ne touche jamais la structure

du monde. Pour elle, le concept de pomme

du monde. Pour elle, le concept de pomme n'est qu'un vecteur mathématique entouré d'autres vecteurs comme rouge, fruits ou Newton. Mais elle n'a aucune idée de ce

Newton. Mais elle n'a aucune idée de ce qu'est la masse d'une pomme, de sa texture sous la dent ou de la façon dont elle rebondit sur le sol. C'est

précisément pour cela que les IA hallucinent. Vous avez sans doute déjà

hallucinent. Vous avez sans doute déjà vu ces erreurs absurdes où une invente une source historique où vous affirme avec un plomb qu'un kil de plume est plus lourd qu'un kil de plomb. Alors

pour beaucoup, c'est un bug qui se règle de version en version. Mais ça n'est pas si simple que ça. Comme le modèle n'a pas de fondation physique, pas de modèle interne de la réalité pour vérifier ses

dir, il est condamné à rêver des faits en permanence. Une générative, par

en permanence. Une générative, par définition, ne fait que générer. Et en

réalité, ce problème dépasse largement l'IA. Il touche au langage lui-même.

l'IA. Il touche au langage lui-même.

Face à ça, la réponse de la silicone vallée a été simple. More is different.

Plus de données, plus de serveurs et plus de paramètres. Encore une fois, on ne peut pas dire que cela ne marche pas car ce que l'on appelle les scaling lows, à savoir les courbes de progression à chaque itération, sont

bien là, elles fonctionnent et elles délivrent. Mais le problème c'est quand

délivrent. Mais le problème c'est quand même la débauche de moyens pour y arriver au point qu'un certain Elon Musk veut mettre des gigaw et des gigaw en orbite autour de la Terre. Mais pour le casin, ça ne marchera pas comme ça

éternellement. Vous en conviendrez, on

éternellement. Vous en conviendrez, on ne peut pas apprendre à conduire en lisant le bouquin de l'auto-école à l'infini. À un moment donné, il faut

l'infini. À un moment donné, il faut ressentir l'embrayage, comprendre l'inertie de la voiture, anticiper le mouvement du piéton sur le trottoir.

Bref, des information qui n'existe pas dans le texte mais dans la physique. Le

cas nous affirme que si nous voulons des robots qui rangent notre maison sans tout casser ou des voitures autonomes à qui l'on peut à peu près confier sa vie et la vie de nos enfants, nous devons

changer de moteur. Nous devons passer à l'IA qui imite, à l'IA qui simule. Face

à l'impasse des modèles de langage, Yann Lequin ne propose pas d'ajouter des serveurs, il propose de changer de philosophie. Alors avant d'aller plus

philosophie. Alors avant d'aller plus loin, il faut d'abord situer le bonhomme. Déjà prituring, alors pour

bonhomme. Déjà prituring, alors pour ceux qui ne connaissent pas, on dit souvent que c'est l'équivalent du prix Nobel en informatique. Ancien chef de la recherche IA chez Meta pendant 12 ans et

surtout c'est un pionnier de l'IA car dans les années 80, il a été l'un des grands artisans de la révolution des réseaux de neurones convolutionnels qui ont été les premiers algorithmes IA

réellement capables de quelque chose et que l'on utilise encore aujourd'hui. et

je passe sur le reste de son œuvre car cela prendrait trop de temps à décrire et expliquer car c'est quand même bien technique. Donc bon, le gars à 65 ans

technique. Donc bon, le gars à 65 ans n'est clairement pas un lapin de 6 semaines. Il a passé les 40 dernières

semaines. Il a passé les 40 dernières années à essayer de reproduire informatiquement les mécanismes du cerveau biologique. Et conclusion, pour

cerveau biologique. Et conclusion, pour lui, l'IA doit cesser d'être une encyclopédie pour devenir un simulateur mental. Aujourd'hui, quand vous voyez

mental. Aujourd'hui, quand vous voyez une IA comme Sura générer une vidéo, vous avez l'impression qu'elle comprend la physique tellement c'est bien fait.

Mais en réalité, elle recompose la scène à partir de blocs d'images sans réellement comprendre les lois de la physique qui s'appliquent derrière.

C'est précisément la limite pointée par le qu. Imaginez un ballon qui rebondit.

le qu. Imaginez un ballon qui rebondit.

Un modèle génératif tente de reconstruire la scène morceau par morceau, image par image, comme s'il devait recréer toute la scène en permanence. Une dépense d'énergie

permanence. Une dépense d'énergie colossale pour un résultat souvent instable car le monde est trop complexe pour être reconstruit image par image.

Pour vous dire ce que vous voyez inonder les réseaux sociaux sur Site D par exemple est impressionnant mais ce que vous ne savez pas c'est que souvent il a fallu de nombreuses itérations pour arriver à produire le rendu final qui

colle toujours et parfaitement à la physique sans qu'il y ait des rebonds bizarres ou des choses qui ne clipent pas comme elles devraient. La vision de Lequin, c'est de ne plus reconstruire image après image, mais de comprendre la

règle derrière le mouvement. Un ballon

tombe, rebondit puis ralenti. OK, c'est

la transition de la génération vers la prédiction. Et j'avoue que l'idée est

prédiction. Et j'avoue que l'idée est très excitante. Le cœur technique de

très excitante. Le cœur technique de cette révolution s'appelle JP Joint and Beding Predictive Architecture.

Architecture prédictive à plongement conjoint en français. Bah, je sais que là ça vous avance pas plus que ça une fois qu'on l'a dit en français. L'idée

est d'arrêter de prédire les pixels ou les mots. À la place, le modèle apprend

les mots. À la place, le modèle apprend à projeter la réalité dans ce que l'on appelle un espace latent. Disons qu'un

espace latent est un monde des concepts.

On ne dessine pas la balle qui tombe. On

calcule la trajectoire de l'objet. En

travaillant sur des embedings, des représentations mathématiques abstraites plutôt que sur des données brutes. Lia

de Lequin gagne une efficacité phénoménale. Elle ne s'encombre plus du

phénoménale. Elle ne s'encombre plus du détail, elle saisit l'essence. En

apprenant dans cet espace latent, le modèle développe une forme d'abstraction stratégique. Dans une vidéo d'une rue

stratégique. Dans une vidéo d'une rue passante, un modèle classique s'épuise à calculer le mouvement de chaque feuille d'arbre, le reflet du soleil sur une flaque d'eau et cetera. C'est ce que

l'on appelle du bruit pour autant, des informations inutiles pour la prise de décision globale. L'architecture JP,

décision globale. L'architecture JP, elle apprend à filtrer le bruit pour ne garder que les variables qui comptent pour l'action. La voiture qui débouche à

pour l'action. La voiture qui débouche à gauche, le piéton qui hésite, le feu qui passe au rouge. OK, c'est exactement ce que fait votre cerveau. Quand vous

traversez la rue, vous ne calculez pas la position de chaque molécule d'air.

Vous simulez les trajectoires critiques.

Le veut donner à Lia la capacité de faire ce tri. En quittant la dictature du pixel, il lui permet enfin de se concentrer sur la causalité. Il commence

à disposer d'un simulateur interne capable de tester des hypothèses. Si je

fais ceci, il va probablement se passer ça. Mais une théorie, aussi brillante

ça. Mais une théorie, aussi brillante soit-elle, reste une théorie. Et pour

valider cette vision, il fallait une preuve. Cette vision n'est plus une

preuve. Cette vision n'est plus une simple intuition académique. En mars

2026, sa start-up parisienne a levé plus d'un milliard de dollars sur une valorisation de 3,5 milliards pour développer des IA capables de comprendre

le monde physique, de raisonner, de planifier et de mémoriser sur le long terme. Autrement dit, on n'est plus face

terme. Autrement dit, on n'est plus face à une hypothèse de chercheur mais à un véritable pari industriel. Cette preuve,

c'est le world model et vous allez voir que ces performances remettent en question tout ce que nous pensions savoir sur la puissance nécessaire pour créer une intelligence. Attention,

toutefois, on parle ici d'une preuve de concept extrêmement prometteuse, pas encore d'un cerveau artificiel généraliste prêt à piloter le monde réel demain matin. Cette vision d'une

demain matin. Cette vision d'une physique qui le la martelle depuis des années, mais jusqu'ici elle restait difficile à concrétiser. Les premières

approches se heurtaient à des défis techniques majeurs qui limitaient leur efficacité. L'un des principaux

efficacité. L'un des principaux problèmes, c'est ce que les chercheurs appellent l'effondrement de la représentation. Dites-vous que Lia est

représentation. Dites-vous que Lia est une tricheuse par nature ? Pour

minimiser ses erreurs, elle peut trouver un raccourci mathématique représenter tous les objet de la même manière. Un

ballon qui tombe ou une voiture qui passe finissent codé de la même façon.

Résultat, une prédiction parfaite sur le papier mais une compréhension nulle de la réalité. Pour empêcher cette triche,

la réalité. Pour empêcher cette triche, l'équipe de Leain a introduit une innovation majeure dans ce papier de mars 2026, le Creeg Sketch Isotropic Gan

regularizer.

Bon, pour être précis, le Seigregistait déjà depuis la fin de l'année dernière, mais pour la première fois, il est intégré dans une architecture simple qui fonctionne de bout en bout.

Rassurez-vous, derrière ce terme horrible, l'idée est simple. Forcez Lia

à rester honnête. Concrètement, le CG impose des contraintes sur l'espace latent pour éviter que toutes les représentations s'effondrent en un seul point. Imaginez que Lia doivent classer

point. Imaginez que Lia doivent classer des objets. Sans contrainte, elle peut

des objets. Sans contrainte, elle peut tout mettre dans la même catégorie pour aller plus vite. Si l'en empêche, elle est obligée de faire des distinctions.

Et pour faire des distinctions, elle doit comprendre ce qu'elle voit, ce qui la pousse à capturer les nuances de la physique. Mais là où le world model se

physique. Mais là où le world model se différencie davantage, c'est dans les chiffres. À l'heure où l'industrie

chiffres. À l'heure où l'industrie construit des infrastructures pensées pour des LLM à l'échelle du trillion de paramètres, le world model n'en utilise que 15 millions. Et en plus, le modèle

ne tourne pas sur un cluster de serveur à un milliard de dollars. Il s'entraîne

sur un seul GPU en seulement quelques heures. Oui, on parle d'un petit modèle

heures. Oui, on parle d'un petit modèle qui utilise environ 200 fois moins de token, tout en se montrant 48 fois plus rapide pour planifier une action physique que les architectures

génératives actuelles. Enfin, la manière

génératives actuelles. Enfin, la manière dont ce modèle apprend est révolutionnaire. Il ne lit pas

révolutionnaire. Il ne lit pas Wikipédia, on ne lui donne pas de petites images avec des étiquettes. Non,

le world model apprend comme quelque part un bébé. On lui montre des vidéos brutes de Pixel. Il observe essa de prédire l'image suivante dans son espace

latent. Donc en projetant des règles, il

latent. Donc en projetant des règles, il se trompe et il ajuste son modèle interne. C'est de l'apprentissage

interne. C'est de l'apprentissage autosupervisé. En quelques heures

autosupervisé. En quelques heures d'entraînement sur un simple ordinateur, le modèle finit par sembler déduire des lois de la physique de ce qu'il observe.

Il comprend qu'un objet ne peut pas traverser un mur, qu'une balle doit rebondir et que la gravité est une constante. On ne lui a pas appris la

constante. On ne lui a pas appris la physique, il la découvre par l'observation. Et là, c'est toute la

l'observation. Et là, c'est toute la différence avec les systèmes de Tesla pour ces voitures autonomes.

Aujourd'hui, une Tesla s'appuie sur d'immenses volumes de vidéos réels pour apprendre à percevoir et anticiper le monde routier. La promesse du world

monde routier. La promesse du world model de Lequin est différente. Au lieu

d'apprendre par accumulation de cas, il cherche à apprendre directement les dynamique du monde physique. Le système

ne se compte plus d'imiter. Il tente de modéliser les interactions entre les objets. Nous commençons donc à voir

objets. Nous commençons donc à voir émerger des systèmes capables de simuler le monde de manière stable, légère et rapide. Et donc après cette demander si

rapide. Et donc après cette demander si ça pouvait marcher, désormais il faut se demander ce que nous allons bien pouvoir en faire. Si le world model provoque une

en faire. Si le world model provoque une telle onde choc, ce n'est pas seulement parce qu'il est plus petit ou plus rapide, c'est parce qu'il change la nature même de ce qu'un ordinateur peut

faire. Rendez-vous compte qu'on est à

faire. Rendez-vous compte qu'on est à deux doigts de passer d'une IA qui réagit à une IA qui anticipe. Pour bien

comprendre, regardez la différence entre un champion de tennis et un type qui débute. Le débutant court après la

débute. Le débutant court après la balle, il réagit à l'impact. Le

champion, lui, a déjà simulé la trajectoire avant même que la raquette adverse ne touche la balle. Les LM

classiques sont plutôt du type débutant.

Ils réagissent au token précédent pour deviner le suivant. Ils sont bloqués dans un présent perpétuel. Un world

model, lui regarde les secondes à venir.

Il projette constamment des scénarios dans son simulateur interne. Dans

l'architecture de Lequin, le modèle ne se jette pas sur la première action de venue. Il utilise son espace latent

venue. Il utilise son espace latent comme terrain d'entraînement virtuel.

Avant de bouger un bras articulé ou de tourner un volant, Lia teste mentalement des milliers d'actions. Elle évalue le coût de chaque scénario. Si je tourne trop vite ici, la voiture est dérapée.

Si je sers ce verre trop fort, il va se briser. C'est une simulation interne de

briser. C'est une simulation interne de la causalité. Lia ne tatonne plus dans

la causalité. Lia ne tatonne plus dans le réel. Elle exécute la solution

le réel. Elle exécute la solution qu'elle a déjà validé dans sa propre imagination physique. Ce changement de

imagination physique. Ce changement de moteur promet de radicalement transformer au moins de piliers que vous connaissez toutes et toutes bien.

Premièrement, la robotique. Aujourd'hui,

programmer un robot pour ranger un lave-vaisselle est un cauchemar parce que le moindre changement de position d'une assiette peut faire bugger le système. Avec le world model, le robot

système. Avec le world model, le robot pourrait développer une forme d'intuition physique. Il comprendrait la

d'intuition physique. Il comprendrait la fragilité, le poids et l'équilibre.

Deuxièmement, et ce sont les voitures autonomes. Actuellement, une Tesla ou

autonomes. Actuellement, une Tesla ou une Wimo combine déjà perception, prédiction et planification, mais elle reste limitée sur l'anticipation robuste des futurs possibles. Le modèle de

Lequin vise à aller plus loin, comprendre les trajectoires et anticiper les événements. Si un ballon roule sur

les événements. Si un ballon roule sur la route, Lia pourrait inférer qu'un enfant risque de suivre sans attendre de le voir. Je pourrais aller plus loin en

le voir. Je pourrais aller plus loin en vous parlant des gains immenses pour les agents IA qui pourraient précisément concevoir les répercussions tiers d'une action prédéterminée sur un temps long.

Mais vous avez compris l'idée. Alors

dans ce cas, pourquoi est-ce que le cas a levé un milliard de dollars si son modèle est immensément moins gourmand que Noël favori ? Et bien ce n'est pas parce qu'il est moins gourmand qu'il n'aura pas besoin d'immensément de

données et là il va bien falloir les acquérir ces données déjà. De plus, cet article se base sur un world model de 15 millions de paramètres, donc tout petit pour faire une première preuve qui sert

à démontrer la puissance du concept et qui va servir à lever bien plus d'argent derrière car il faudra tout de même des data centers géants à AMI pour développer ses solutions sur des modèles

plus grands et à plus large échelle. En

fait, dans l'idéal, la stratégie est la suivante : devenir un standard mondial pour renverser la table en publiant le code de Sigray. Le but est d'inciter tous les acteurs à abandonner les LLM.

Déjà, première effet qui cool, le monde admettra qu'il avait raison et ça fait toujours plaisir. Deuxièmement, il devra

toujours plaisir. Deuxièmement, il devra produire des licences industrielles carabs devrait rester à la pointe du développement de ces technologies. Bon,

c'est là que je suis un peu plus dubitatif car s'il trouve réellement une nouvelle voie, je ne vois pas ce qui empêcherait les Chinois, les Américains et les autres de repartir avec ce nouveau postulat sur leur propre base

plutôt que de lui laisser la courtoisie de rester devant. Alors oui, ça s'est déjà vu dans le logiciel, mais là on parle de la course mondiale à nous verrons bien. C'est pour ça que pour ma

verrons bien. C'est pour ça que pour ma part, d'un point de vue business, je valorise plutôt l'infrastructure IA plutôt que le développement des algorithmes. Les barrières à la

algorithmes. Les barrières à la concurrence sont plus tangibles avec l'infra car copier des gigawatt, c'est pas la même chose que télécharger un nouveau modèle open source. En tout cas, la course promet d'être passionnante et

on va suivre ces évolutions de très près sur Grand Angova. Le tour de force de Lein, c'est de commencer à démontrer que l'intelligence n'est pas qu'une question de gigantisme. Bien sûr, le gigantisme

de gigantisme. Bien sûr, le gigantisme est nécessaire, mais on peut probablement faire un saut qualitatif en travaillant sur la connexion avec le réel. Et si cette vision l'emporte, le

réel. Et si cette vision l'emporte, le futur de l'IA ne s'écrira plus dans des interfaces textuelles, mais dans la manière dont les machines interagissent.

enfin intelligemment avec notre monde.

En parlant d'infrastructure, Elon Musk nous promet de marginaliser toute l'infrastructure mondiale en déplaçant ces data centers dans l'espace. Rien que

ça. Allez voir cette vidéo si vous voulez comprendre en quoi le projet Terraf pourrait bien changer le monde et même l'univers selon Musk.

Loading...

Loading video analysis...