Burning out – by Nathan Lambert


L’un des thèmes évidents de la Vallée aujourd’hui est à quel point tout le monde travaille dur. Nous sommes inondés de commentaires sur « The Great Lock In », 996997, et maintenant même un 002 sarcastique (de minuit à minuit avec une pause de 2 heures). Une grande partie de cela est une flexion performative sur les médias sociaux, mais une grande partie est réelle et reflète la façon dont les tendances se déroulent dans l’espace LLM. Je suis concerné. Mes amis sont touchés.

Tout ce travail acharné fait suite à une pression toujours croissante pour être pertinent dans la technologie la plus passionnante de notre génération. Tout cela reflète le changement dans la donne du LLM. La fenêtre de temps pour être un acteur à la pointe de la technologie est en fait une fenêtre qui se ferme, pas seulement ce qui semble en être une. Il existe de nombreuses tailles et types de modèles différents, mais comme le marché est désormais plus étoffé en ressources, tous sont confrontés à une barre de plus en plus élevée en termes de qualité de production technique. Les gens se précipitent pour rester au-dessus de la marée montante, annihilant souvent tout espoir d’équilibre de vie.

L’IA suit le chemin emprunté par d’autres secteurs auparavant, mais sous stéroïdes. Il y a une section célèbre du livre Apple in China, où l’auteur Patrick McGee décrit les programmes qu’Apple a mis en place pour sauver les mariages des ingénieurs qui voyagent beaucoup en Chine et travaillent des heures incroyables. Dans un interview sur ChinaTalkMcGee a ajouté «Peu importe les divorces, il faut regarder les décès.« C’est une sombre réalité qui se joue sûrement dans l’IA.

Le Wall Street Journal a récemment publié un article sur la façon dont Les travailleurs de l’IA travaillent 100 heures par semaine pour gagner la nouvelle course aux armements technologiques. L’ouverture de l’article est excellente pour décrire ce que vous avez ressenti au cours des deux dernières années si vous participez à la danse :

Josh Batson n’a plus de temps pour les réseaux sociaux. Le seul hit dopaminergique comparable du chercheur en IA ces jours-ci se trouve sur les canaux de messagerie Slack d’Anthropic, où il explore les discussions sur les théories et les expériences de ses collègues sur les grands modèles de langage et l’architecture.

Les accros au travail abondent dans l’IA. Je me compte souvent, mais je fais beaucoup d’efforts pour faire en sorte que le travail s’étende pour occuper le temps disponible et non que je remplisse tout ce qui concerne le travail. Cet article du WSJ contenait un tas de commentaires fous qui montrent les limites mentales des individus et la culture dans laquelle ils agissent, tels que :

Plusieurs chercheurs de renom ont comparé ces circonstances à la guerre.

Comparer la recherche actuelle sur l’IA à la guerre est déconnecté de la réalité (surtout avec l’ancrage de guerres réelles se déroulant simultanément à la course à l’IA !). Ce qu’ils apprennent réellement, c’est qu’exercer une activité dans un environnement collectif à un niveau d’élite pendant plusieurs années est incroyablement difficile. C’est! La guerre, c’est cela et bien plus encore.

Au cours des derniers mois, j’ai fait de plus en plus d’analogies sur la façon dont travailler aujourd’hui dans les LLM est similaire à s’entraîner avec une équipe pour devenir des athlètes d’élite. Les objectifs sont lointains et souvent singuliers, il y a des marges incroyablement fines entre le succès et l’échec, une grande partie du travail est ressentie par de petites tâches qui s’additionnent au fil du temps mais que vous ne voulez pas faire sur le moment, et vous ne pouvez jamais vraiment savoir à quel point votre processus fonctionne bien tant que vous n’avez pas comparé vos résultats avec ceux de vos meilleurs concurrents, ce qui n’arrive que quelques fois par an dans la modélisation sportive et linguistique.

À l’université, j’étais rameur léger D1 à l’Université Cornell. J’ai rejoint une équipe et nous avons fini par remporter 3 championnats en 4 ans. Une grande partie de cela est le fruit du hasard, tout comme la grandeur, mais c’est un exemple crucial pour comprendre comment des mentalités similaires peuvent s’appliquer dans différents domaines au cours d’une vie. Mon état d’esprit concernant le travail de LLM que j’effectue aujourd’hui me semble incroyablement similaire – concentration totale et adhésion – mais je ne pense pas avoir encore trouvé un environnement de travail où la culture est aussi cohérente que l’athlétisme. Là où la culture d’OpenAI est souvent décrite comme culte, il y a souvent de nombreux signes indiquant que les membres de l’équipe principale l’adorent absolument, même s’ils travaillent au 996, 997 ou 002. Quand on l’aime, cela ne ressemble pas à du travail. C’est la même raison pour laquelle s’entraîner 20 heures par semaine alors qu’un étudiant à temps plein peut sembler facile.

De nombreux chercheurs en IA peuvent apprendre de l’athlétisme et apprécier la valeur du repos. Votre acuité mentale peut diminuer plus rapidement que vos performances physiques maximales lorsque vous n’êtes pas reposé. Travailler trop dur vous oblige à adopter des approches plus étroites et moins créatives. Plus je m’enfonce dans le burn-out en essayant de faire de vous le prochain modèle Olmo, plus mon écriture se détériore. Ma capacité à repérer les impasses techniques va avec. Si les avantages intellectuels du repos sont difficiles à percevoir, votre emploi du temps ne laisse pas la place à la créativité et à la perspicacité.

Fabriquer le équipe la culture dans ces deux environnements est incroyablement difficile. C’est la qualité de la culture d’équipe qui détermine le résultat plus que les composants individuels. Oui, avec les LLM, vous pouvez prendre de brefs raccourcis en embauchant des talents possédant des années d’expérience dans un autre laboratoire pionnier, mais cela ne change pas la dynamique à long terme. Oui, vous avez évidemment besoin d’autant de calculs que possible. En même temps, la culture est incroyablement inconstante. Il est plus facile de perdre que de construire.

Certains soutiennent que démarrer un nouveau laboratoire aujourd’hui peut être un avantage par rapport aux laboratoires établis, car vous pouvez repartir de zéro avec une base de code plus propre, mais c’est un problème. Trois ingrédients principaux de la formation : les outils internes (recettes, bases de code, etc.), les ressources (calcul, données) et le personnel. Le leadership définit la direction et la culture dans lesquelles la direction exécute cette direction. Tous les éléments sont cruciaux et ne peuvent être négligés. Plus les meilleurs modèles avancent, plus il deviendra difficile de repartir de zéro. À terme, cette dynamique reviendra en faveur d’un départ à zéro, car le savoir-faire et les outils publics rattraperont leur retard, mais entre-temps, les outils fermés s’améliorent à un rythme beaucoup plus rapide que les outils entièrement ouverts.

Partager

Des sociétés comme SSI, Thinky et Reflection sont probablement les derniers efforts suffisamment capitalisés pour peut être rattraper leur retard à court terme, mais les chances ne sont pas de leur côté. Intégrer un calcul infini dans une nouvelle entreprise n’a aucun sens si votre code, vos données et vos architectures de pré-formation ne sont pas déjà prêtes. Finalement, le temps pressera pour que les entreprises envisagent simplement de rattraper la frontière, puis de comprendre à partir de là. Plus ces entreprises augmenteront, plus les attentes concernant leur première production augmenteront également. Ce n’est pas une position enviable, mais elle est certainement ambitieuse.

À bien des égards, je considère que la culture des entreprises technologiques chinoises (et des systèmes éducatifs) est mieux adaptée à ce type de travail de rattrapage. De nombreux chercheurs de haut niveau en IA formés aux États-Unis souhaitent travailler sur un chef-d’œuvre, où la modélisation du langage nécessite souvent un travail prolongé pour stabiliser et reproduire quelque chose que vous connaissez avec certitude. peut travail.

Avant, je pensais que la bulle de l’IA allait éclater financièrement, comme en témoigne une série de fusions économiques, d’acquisitions et d’accords similaires. Je commence à voir plus de limites au capital humain qu’au capital financier dont disposent les entreprises d’IA d’aujourd’hui. À mesure que le niveau technique de pertinence augmente (c’est-à-dire la qualité des modèles que les gens souhaitent utiliser ou le meilleur modèle ouvert d’une catégorie de taille donnée), il faut simplement un travail plus ciblé pour y parvenir. Ce travail est difficile à tromper à temps.

Tout cela est lié à la façon dont moi-même et d’autres chercheurs commentons toujours les fruits à portée de main que nous voyons pour continuer à améliorer les modèles. À mesure que les modèles se sont améliorés, nos systèmes permettant de les construire sont devenus plus raffinés, plus complexes, plus complexes et plus sensibles numériquement. Même si je vois aujourd’hui autant de fruits à portée de main qu’il y a un an, les efforts (ou ressources physiques, GPU) nécessaires pour les débloquer ont augmenté. Cela pousse les gens à se rapprocher encore plus de leurs limites. Cela s’ajoute à davantage d’épuisement professionnel. C’est également la raison pour laquelle le WSJ a rapporté que les meilleurs chercheurs « répétaient à plusieurs reprises qu’ils travaillaient de longues heures par choix ». Les meilleurs ont le sentiment qu’ils doivent faire ce travail, sinon ils prendront du retard. Il s’agit de mener une expérience supplémentaire, d’exécuter un test d’ambiance supplémentaire, d’examiner les relations publiques d’un collègue supplémentaire, de lire un article supplémentaire, de rechercher un contrat de données supplémentaire. La liste de tâches n’est jamais vide.

La quantité de contexte que vous devez conserver dans votre cerveau pour bien performer dans de nombreux contextes de formation LM ne cesse d’augmenter. Par exemple, la direction des pipelines post-formation autour du lancement de ChatGPT ressemblait à deux ou peut-être trois étapes de formation bien séparées. Il y a désormais des tonnes de points de contrôle qui sont fusionnés, séquencés et découpés dans une partie du projet final. Les processus qui étaient auparavant gérés par une ou deux personnes disposent désormais d’équipes qui coordonnent de nombreux efforts en matière de données et d’algorithmes qui tentent de se concentrer sur quelques modèles seulement par an. Je suis personnellement passé d’un chercheur normal à quelque chose comme un responsable technique qui essaie toujours de prédire les bloqueurs avant qu’ils n’apparaissent (à tout moment du processus post-formation) et d’obtenir des ressources pour les résoudre. Je saute dans et hors des problèmes là où se trouve le plus de risques.

Le bachotage et le maintien du contexte technique écartent les passe-temps et la tranquillité d’esprit.

La formation de modèles de langage généraux que vous espérez que d’autres adopteront – via des pondérations ouvertes ou une API – devient en grande partie un domaine tout-en-un ou tout-en-un. Le faire à moitié devient un moyen coûteux de fabriquer un modèle que personne n’utilisera. Ce n’était pas le cas il y a deux ans, où jouer avec une certaine partie du pipeline avait un impact légitime.

La culture est une frontière ténue entre performance et toxicité, et il est souvent difficile de savoir qui vous êtes jusqu’à ce que vous arriviez à un livrable majeur à comparer par rapport à vos concurrents.

Personnellement, je me bats contre une arme à double tranchant. Je ressens une immense responsabilité dans la réalisation de tous les futurs modèles Olmo du monde, tout en essayant simultanément de réaliser un travail substantiel sur l’écosystème pour créer une discussion éclairée sur l’état des modèles ouverts. Mon objectif autour de cette discussion est de construire des choses plus réelles. Projet ATOM C’est une manifestation de mon sentiment que l’écosystème américain en général et le projet Olmo sont à la traîne.

Il ne semble pas vraiment qu’il y ait une solution immédiate ou un objectif final à ce sujet, mais avec le recul, je suis sûr que les moments clés seront clairs et si mes efforts ici et ailleurs ont atteint ou non mes objectifs.

Est-ce que tout cela en vaudra la peine ? Combien de temps comptez-vous continuer ainsi ? Ce n’est pas comme si nous allions soudainement atteindre AGI et ensuite tous faire nos valises et rentrer chez nous. Les progrès de l’IA sont désormais un long chemin.

Pour moi, la seule raison de continuer est d’essayer de faire de l’IA une technologie merveilleuse pour le monde. Certains ressentent la même chose. D’autres y vont parce qu’ils sont engagés sur la voie de la richesse générationnelle. Beaucoup n’ont aucun de ces alignements, et le mur de l’effort arrive plus tôt.

Merci à Ross Taylor, Jordan Schneider et Jasmine Sun pour leurs commentaires sur cet article.

Leave a Reply

Your email address will not be published. Required fields are marked *