Peu de temps après que Hunter Lightman a rejoint Openai en tant que chercheur en 2022, il a vu ses collègues lancer Chatgpt, l’un des produits la plus rapide de tous les temps. Pendant ce temps, Lightman a travaillé tranquillement sur une équipe enseignant les modèles d’Openai pour résoudre les compétitions de mathématiques du secondaire.
Aujourd’hui, cette équipe, connue sous le nom de Mathgen, est considérée comme instrumentale dans l’effort d’Openai, leader de l’industrie pour créer des modèles de raisonnement d’IA: la technologie de base derrière les agents d’IA qui peuvent effectuer des tâches sur un ordinateur comme le feraient un humain.
“Nous essayions d’améliorer les modèles dans le raisonnement mathématique, qui à l’époque n’est pas très bon”, a déclaré Lightman à TechCrunch, décrivant les premiers travaux de Mathgen.
Les modèles d’Openai sont loin d’être parfaits aujourd’hui – les derniers systèmes d’IA de l’entreprise hallucinent encore et ses agents luttez avec des tâches complexes.
Mais ses modèles de pointe se sont considérablement améliorés sur le raisonnement mathématique. L’un des modèles d’Openai a récemment remporté une médaille d’or à l’Olympiade internationale de mathématiques, un concours de mathématiques pour les lycéens les plus brillants du monde. Openai estime que ces capacités de raisonnement se traduiront par d’autres sujets et, en fin de compte, alimenteront les agents généraux que l’entreprise a toujours rêvé de construire.
Chatgpt était un happy accident – un aperçu de la recherche en dispensabilité devenue une entreprise de consommation virale – mais les agents d’Openai sont le produit d’un effort délibéré et délibéré de plusieurs années.
“Finalement, vous demanderez simplement à l’ordinateur ce dont vous avez besoin et cela vous fera toutes ces tâches”, a déclaré le PDG d’Openai, Sam Altman, lors de la première conférence de développeur de la société en 2023. “Ces capacités sont souvent parlées dans le domaine de l’IA en tant qu’agents. Les avals de cela vont être formidables.”
Événement TechCrunch
San Francisco
|
27-29 octobre 2025
Il reste à voir si les agents rencontreront la vision d’Altman, mais Openai a choqué le monde avec la sortie de son premier modèle de raisonnement d’IA, O1, à l’automne 2024. Moins d’un an plus tard, les 21 chercheurs fondateurs derrière cette percée sont le talent le plus recherché dans la Silicon Valley.
Mark Zuckerberg a recruté cinq des chercheurs de l’O1 pour travailler sur la nouvelle unité axée sur la superintelligence de META, offrant des forfaits de rémunération au nord de 100 millions de dollars. L’un d’eux, Shengjia Zhao, a récemment été nommé scientifique en chef de Meta Superintelligence Labs.
La renaissance de renforcement de la renaissance
La montée en puissance des modèles de raisonnement et des agents d’OpenAI est lié à une technique de formation d’apprentissage automatique connu sous le nom de renforcement d’apprentissage (RL). RL fournit une rétroaction à un modèle d’IA pour savoir si ses choix étaient corrects ou non dans des environnements simulés.
RL est utilisé depuis des décennies. Par exemple, en 2016, environ un an après la fondation d’Openai en 2015, un système d’IA créé par Google Deepmind en utilisant RL, Alphago, a attiré l’attention mondiale après avoir battu un champion du monde dans le jeu de société, Go.
À cette époque, l’un des premiers employés d’Openai, Andrej Karpathy, a commencé à réfléchir à la façon de tirer parti de RL pour créer un agent d’IA qui pourrait utiliser un ordinateur. Mais il faudrait des années à OpenAI pour développer les modèles et les techniques de formation nécessaires.
D’ici 2018, Openai a été le pionnier de son premier modèle de grande langue dans la série GPT, a pré-élaboré des quantités massives de données Internet et de grands grappes de GPU. Les modèles GPT ont excellé dans le traitement du texte, ce qui a finalement conduit à Chatgpt, mais a lutté avec les mathématiques de base.
Il a fallu jusqu’en 2023 pour que OpenAI réalise une percée, initialement surnommée «Q *» puis «Strawberry», en combinant LLMS, RL, et une technique appelée calcul du temps de test. Ce dernier a donné aux modèles du temps supplémentaire et une puissance de calcul pour planifier et résoudre les problèmes, vérifier ses étapes, avant de fournir une réponse.
Cela a permis à OpenAI d’introduire une nouvelle approche appelée «chaîne de réflexion» (COT), qui a amélioré les performances de l’IA sur les questions mathématiques que les modèles n’avaient jamais vues auparavant.
«Je pouvais voir le modèle commencer à raisonner», a déclaré El Kishky. «Cela remarquerait des erreurs et des arrière-bouts, cela serait frustré. C’était vraiment comme lire les pensées d’une personne.»
Bien que individuellement, ces techniques n’étaient pas nouvelles, Openai les a combinés de manière unique pour créer de la fraise, ce qui a directement conduit au développement de l’O1. OpenAI a rapidement identifié que les capacités de planification et de vérification des faits des modèles de raisonnement en IA pourraient être utiles pour alimenter les agents de l’IA.
“Nous avions résolu un problème contre lequel je me cognais la tête depuis quelques années”, a déclaré Lightman. «Ce fut l’un des moments les plus excitants de ma carrière de recherche.»
Raisonnement de mise à l’échelle
Avec les modèles de raisonnement IA, OpenAI a déterminé qu’il avait deux nouveaux axes qui lui permettraient d’améliorer les modèles d’IA: utiliser plus de puissance de calcul pendant la formation post-entraînement des modèles d’IA, et donner aux modèles d’IA plus de temps et de puissance de traitement tout en répondant à une question.
“Openai, en tant qu’entreprise, pense beaucoup non seulement à la façon dont les choses sont, mais aussi à la façon dont les choses vont évoluer”, a déclaré Lightman.
Peu de temps après la percée de Strawberry 2023, Openai a renversé une équipe “Agents” dirigée par le chercheur OpenAI Daniel Selsam pour faire de nouvelles progrès sur ce nouveau paradigme, ont déclaré deux sources à TechCrunch à TechCrunch. Bien que l’équipe s’appelait des «agents», Openai n’a pas initialement fait la différence entre les modèles de raisonnement et les agents comme nous le pensons aujourd’hui. L’entreprise voulait simplement faire des systèmes d’IA capables de accomplir des tâches complexes.
Finalement, le travail de l’équipe des agents de Selsam est devenu une partie d’un projet plus large pour développer le modèle de raisonnement O1, avec des dirigeants tels que le co-fondateur d’Openai Ilya Sutskever, le directeur de la recherche Mark Chen et le scientifique en chef Jakub Pachocki.
Openai devrait détourner des ressources précieuses – principalement des talents et des GPU – pour créer O1. Tout au long de l’histoire d’Openai, les chercheurs ont dû négocier avec les chefs d’entreprise pour obtenir des ressources; Démontrer des percées était un moyen infaillible de les sécuriser.
“L’une des principales composantes d’OpenAI est que tout dans la recherche est de bas en haut”, a déclaré Lightman. «Quand nous avons montré les preuves [for o1]l’entreprise était comme, “Cela a du sens, poussons-le.” “
Certains anciens employés disent que la mission de la startup de développer AGI a été le facteur clé pour réaliser des percées autour des modèles de raisonnement d’IA. En se concentrant sur le développement des modèles d’IA les plus intelligents, plutôt que sur les produits, OpenAI a pu prioriser l’O1 au-dessus des autres efforts. Ce type d’investissement important dans les idées n’a pas toujours été possible dans les laboratoires AI concurrents.
La décision d’essayer de nouvelles méthodes de formation s’est avérée prémonitoire. À la fin de 2024, plusieurs principaux laboratoires AI ont commencé à voir des rendements décroissants sur des modèles créés par une mise à l’échelle de pré-formation traditionnelle. Aujourd’hui, une grande partie de l’élan du champ d’IA provient des progrès des modèles de raisonnement.
Qu’est-ce que cela signifie pour une IA de «raisonner»?
À bien des égards, l’objectif de la recherche sur l’IA est de recréer l’intelligence humaine avec des ordinateurs. Depuis le lancement de l’O1, l’UX de Chatgpt a été rempli de fonctionnalités plus à consonance humaine telles que la «pensée» et le «raisonnement».
Lorsqu’on lui a demandé si les modèles d’Openai raisonnaient vraiment, El Kishky a couvert, disant qu’il pensait au concept en termes d’informatique.
“Nous enseignons au modèle comment dépenser efficacement le calcul pour obtenir une réponse. Donc, si vous le définissez de cette façon, oui, c’est le raisonnement”, a déclaré El Kishky.
Lightman adopte l’approche de se concentrer sur les résultats du modèle et non autant sur les moyens ou leur relation avec le cerveau humain.
“Si le modèle fait des choses difficiles, alors il fait toute approximation nécessaire du raisonnement dont il a besoin pour le faire”, a déclaré Lightman. “Nous pouvons appeler cela du raisonnement, car il ressemble à ces traces de raisonnement, mais ce n’est qu’un proxy pour essayer de faire des outils d’IA qui sont vraiment puissants et utiles à beaucoup de gens.”
Les chercheurs d’OpenAI notent que les gens peuvent être en désaccord avec leur nomenclature ou leur définitions du raisonnement – et sûrement, Les critiques ont émergé – mais ils soutiennent que c’est moins important que les capacités de leurs modèles. D’autres chercheurs d’IA ont tendance à être d’accord.
Nathan Lambert, un chercheur d’IA à l’entrée à but non lucratif AI2, compare les modes de raisonnement IA aux avions dans un article de blog. Les deux, dit-il, sont des systèmes artificiels inspirés par la nature – le raisonnement humain et le vol d’oiseaux, respectivement – mais ils fonctionnent à travers des mécanismes entièrement différents. Cela ne les rend pas moins utiles ou moins capables d’obtenir des résultats similaires.
Un groupe de chercheurs d’IA d’OpenAI, anthropic et Google Deepmind a convenu dans un article de position récent selon lequel les modèles de raisonnement d’IA ne sont pas bien compris aujourd’hui, et plus de recherches sont nécessaires. Il peut être trop tôt pour réclamer en toute confiance ce qui se passe exactement à l’intérieur d’eux.
La prochaine frontière: agents d’IA pour les tâches subjectives
Les agents d’IA sur le marché fonctionnent aujourd’hui le mieux pour les domaines bien définis et vérifiables tels que le codage. L’agent Codex d’OpenAI vise à aider les ingénieurs logiciels à décharger des tâches de codage simples. Pendant ce temps, les modèles d’Anthropic sont devenus particulièrement populaires dans les outils de codage de l’IA comme Cursor et Claude Code – ce sont quelques-uns des premiers agents de l’IA pour lesquels les gens sont prêts à payer.
Cependant, les agents de l’IA à usage général comme l’agent Chatgpt d’Openai et la comète de Perplexity luttent contre de nombreuses tâches complexes et subjectives que les gens veulent automatiser. Lorsque vous essayez d’utiliser ces outils pour les achats en ligne ou la recherche d’une place de stationnement à long terme, j’ai trouvé que les agents prenaient plus de temps que je ne le souhaitent et faisaient des erreurs idiotes.
Les agents sont, bien sûr, les premiers systèmes qui s’amélioreront sans aucun doute. Mais les chercheurs doivent d’abord comprendre comment mieux former les modèles sous-jacents à accomplir des tâches plus subjectives.
“Comme de nombreux problèmes dans l’apprentissage automatique, c’est un problème de données”, a déclaré Lightman, interrogé sur les limites des agents sur les tâches subjectives. “Certaines des recherches qui m’ont vraiment excité en ce moment consiste à trouver comment s’entraîner sur des tâches moins vérifiables. Nous avons des pistes sur la façon de faire ces choses.”
Noam Brown, un chercheur OpenAI qui a aidé à créer le modèle IMO et O1, a déclaré à TechCrunch qu’OpenAI avait de nouvelles techniques de RL à usage général qui leur permettent d’enseigner les compétences des modèles d’IA qui ne sont pas facilement vérifiées. C’est ainsi que la société a construit le modèle qui a obtenu une médaille d’or à l’OMI, a-t-il déclaré.
Le modèle IMO d’OpenAI était un système d’IA plus récent qui engendre plusieurs agents, qui explorent ensuite simultanément plusieurs idées, puis choisissent la meilleure réponse possible. Ces types de modèles d’IA deviennent de plus en plus populaires; Google et Xai ont récemment publié des modèles de pointe en utilisant cette technique.
“Je pense que ces modèles deviendront plus capables en mathématiques, et je pense qu’ils seront également plus capables dans d’autres domaines de raisonnement”, a déclaré Brown. “Les progrès ont été incroyablement rapides. Je ne vois aucune raison de penser que cela ralentira.”
Ces techniques peuvent aider les modèles d’Openai à devenir plus performants, des gains qui pourraient apparaître dans le prochain modèle GPT-5 de l’entreprise. Openai espère affirmer sa domination sur les concurrents avec le lancement de GPT-5, offrant idéalement le Meilleur modèle d’IA aux agents électriques pour les développeurs et les consommateurs.
Mais l’entreprise veut également simplifier ses produits plus simples. El Kishky dit que OpenAI veut développer des agents d’IA qui comprennent intuitivement ce que les utilisateurs veulent, sans les obliger à sélectionner des paramètres spécifiques. Il dit que OpenAI vise à construire des systèmes d’IA qui comprennent quand appeler certains outils et combien de temps pour les raisons.
Ces idées brossent une image d’une version ultime de Chatgpt: un agent qui peut faire n’importe quoi sur Internet pour vous et comprendre comment vous voulez qu’il soit fait. C’est un produit très différent de ce que le chatppt est aujourd’hui, mais les recherches de l’entreprise se dirigent carrément dans cette direction.
Alors qu’Openai dirigeait sans aucun doute l’industrie de l’IA il y a quelques années, la société fait maintenant face à une tranche de dignes adversaires. La question n’est plus seulement si OpenAI peut livrer son avenir agentique, mais l’entreprise peut-elle le faire avant que Google, Anthropic, Xai ou Meta ne le batte-t-il?