AI Week in Review 25.12.20


Figure 1. Joyeux ShipMas et Joyeux Noël. Toujours à partir de la démo OpenAI de ChatGPT Images 1.5, où ils ont montré comment des caractères cohérents dans les images pouvaient être transformés en littéralement des centaines de scènes.

Ce fut une grande semaine de sorties, alors que les fournisseurs d’IA ont publié leurs meilleurs modèles et mises à jour avant la fin de l’année. La plus grosse sortie de la semaine était Google lance le modèle Gemini 3 Flash AIavec compréhension multimodale intégrée du texte, de l’image, de l’audio et de la vidéo et offrant des capacités de raisonnement avancées avec une latence et un coût réduits.

Google affirme que Gemini 3 Flash possède une « intelligence de pointe conçue pour la vitesse » et que les mesures de performances le confirment. Gémeaux 3 Flash les performances de référence sont excellentes : 78,0 % sur SWE-bench Verified, 95,2 % sur AIME 2025, 33,7 % sur HLE. Cela bat Gemini 2.5 Pro et Claude Sonnet 4.5 au total et se rapproche de Gemini 3 Pro, battant même ce dernier sur SWE-Bench Verified.

Gemini 3 Flash est conçu pour une utilisation généralisée dans les flux de travail en temps réel et les applications agents, et Google le déploie largement, en l’utilisant comme nouvelle valeur par défaut dans l’application Gemini, le mode AI dans la recherche Google et les outils de développement de Google tels que l’API Gemini, Android Studio et Vertex AI. Le coût de l’API pour Gemini 3 Flash est de 0,50 $/M de jetons d’entrée et de 3,00 $/M de jetons de sortie, ce qui est supérieur à celui de Gemini 2.5 Flash mais nettement inférieur à celui des modèles d’IA concurrents aux performances similaires. Cela fait de Gemini 3 Flash un bon modèle d’IA de pilote quotidien pour de nombreux cas d’utilisation.

Figure 2. Les performances de référence de Gemini 3 Flash montrent qu’il s’agit d’un modèle d’IA exceptionnel avec des performances élevées mais un coût raisonnable.

OpenAI a publié le codex GPT 5.2le modèle d’IA spécialisé optimisé pour le codage basé sur GPT-5.2 et conçu pour l’ingénierie logicielle professionnelle et le codage complexe. GPT 5.2 Codex prend en charge le codage agent et les flux de travail de terminal, et son contexte étendu allant jusqu’à 400 000 entrées de jetons avec compactage de contexte natif permet le développement et le débogage de grands référentiels. Le modèle note SOTA sur des benchmarks tels que SWE-Bench Pro (56,4 %) et Terminal-Bench 2.0 (64,0 %), juste devant GPT-5.2 lui-même, tandis qu’OpenAI vante ses compétences dans les tâches de cybersécurité sur la base de divers benchmarks. GPT‑5.2-Codex est disponible dans les interfaces OpenAI Codex pour les utilisateurs ChatGPT payants, avec un accès API bientôt disponible.

NVIDIA a annoncé la famille Nemotron 3 de modèles d’IA ouverts et a lancé Nemotron 3 Nanocomprenant 30 B de paramètres au total avec 3 B de paramètres actifs lors de l’inférence. Nemotron 3 Nano offre d’excellentes performances avec une vitesse d’inférence élevée et un faible coût grâce à l’utilisation d’une architecture hybride Mamba-MoE et d’un pipeline de formation robuste. Comme nous l’avons partagé dans “Nemotron 3 Nano et Apriel-1.6-Thinker Advance ouvrent l’IA locale», Nvidia a également publié les données de formation, les recettes de formation et les rapports techniques à la communauté, offrant ainsi un accès ouvert aux ressources de développement d’IA à grande échelle. Ce modèle peut donc servir de base à des modèles d’IA affinés très efficaces.

Lancement d’OpenAI Image GPT 1.5un modèle de génération et d’édition d’images mis à jour qui offre une qualité supérieure, une inférence plus rapide (quatre fois plus rapide) et un coût inférieur (20 % moins cher) que le modèle d’image GPT d’origine. GPT Image 1.5 prend en charge un contrôle précis sur des régions et des modifications spécifiques de l’image, et son rendu de texte est au point de reproduire avec précision une page détaillée de texte dans une image. Sa capacité à refondre facilement des personnages cohérents dans de nouvelles scènes facilite la falsification de photos.

OpenAI a également publié une mise à jour des images ChatGPT, le Fonctionnalité d’images dans ChatGPTalimenté par GPT-Image-1.5 pour tous les utilisateurs. GPT-Image-1.5 est accessible avec les images mises à jour dans ChatGPT et est également disponible via l’API, où il peut être utilisé dans des interfaces tierces.

Figure 3. Exemples de restyles de génération GPT-Image-1.5 avec des caractères cohérents. Les personnages de l’image de la famille Kim ont fait de la plongée sous-marine, ont été des astronautes sur la lune, ont été poursuivis par un yéti lors d’une escalade, sont montés sur un dragon et ont été transformés en personnages en peluche, le tout dans la sécurité d’une invite d’IA.

Xiaomi a lancé MiMo V2, un modèle de base d’IA à pensée hybride open source puissant et rapide. MiMo V2 fonctionne au niveau de Kimi K2 et DeepSeek V3.2 en matière de réflexion sur les tests de raisonnement, obtenant 73,4 % sur SWE-Bench vérifié et 83 % sur GPQA Diamond. Pourtant, Xiaomi affirme qu’il est rapide (150 jetons/seconde) et ne coûte que 0,1 $/M de jetons d’entrée et 0,3 $/M de jetons de sortie. Les innovations de Xiaomi dans le développement de MiMo V2 incluent l’utilisation d’une architecture d’attention hybride qui entrelace une fenêtre coulissante et une attention totale, ainsi qu’une prédiction multi-jetons pour une inférence plus rapide.

xAI a dévoilé l’API Grok Voice Agentun service d’IA vocale conçu pour alimenter des interactions vocales en temps réel qui incluent une connaissance intégrée du monde et des appels d’outils en direct. Les développeurs peuvent l’utiliser pour créer des agents vocaux à faible latence dotés de vastes capacités de connaissances. L’API Grok Voice Agent se classe numéro un sur Big Bench Audio. Il est actuellement déployé dans les véhicules Tesla pour les commandes vocales natives et l’accès aux informations en direct.

Les laboratoires de la Forêt-Noire ont annoncé FLUX.2 [max] modèle de conversion texte-image et d’édition d’images. FLUX.2 [max] est le modèle de la plus haute qualité de BFL à ce jour, amélioré par rapport au FLUX.2 [pro] avec jusqu’à 10 images de référence pour des générations de personnages cohérentes et d’autres améliorations. Il se classe troisième dans le classement de l’analyse artificielle. derrière Nano Banana Pro et GPT-Image 1.5.

Dans une mise à jour connexe, FLUX.2 Pro est désormais intégré à Adobe Photoshop en tant qu’option améliorée de modèle de remplissage génératifoffrant une prise en charge étendue des modèles pour les flux de travail d’édition générative dans Photoshop.

Figure 4. FLUX.2 des laboratoires de la Forêt-Noire [max] peut combiner des éléments d’images et de personnages, jusqu’à 10 à la fois, dans une image combinée.

Kling AI dévoile un contrôle de mouvement amélioré dans VIDEO 2.6fournissant capture d’action plus précise et contrôle amélioré de la dynamique de mouvement dans les clips générés. Kling AI a également lancé le contrôle vocal avancé dans VIDEO 2.6, visant à améliorer la cohérence vocale et à permettre un comportement vocal personnalisé. Cette fonctionnalité fait partie du flux de travail vidéo audio de Kling et inclut un meilleur comportement de synchronisation labiale. Les pièces sont en place pour des clips audio-vidéo générés par l’IA d’une fidélité convaincante.

Google a dévoilé FunctionGemmaun modèle open source affiné pour l’appel de fonctions et l’inférence sur les appareils de périphérie. FunctionGemma est destiné aux tâches d’automatisation locales et sert de base solide pour créer des agents locaux personnalisés, rapides et privés qui traduisent le langage en actions exécutables. C’est un modèle open source de 270 millions de paramètres qui ne nécessite que 500 Mo de RAM, lui permettant de fonctionner sur des appareils mobiles et des navigateurs sans dépendances au cloud.

Google Labs a présenté CC, un agent IA pour les briefings Gmail personnalisés, visant à aider les utilisateurs avec les flux de travail de messagerie. Avec CC, les utilisateurs peuvent gérer et comprendre ce qui se passe dans leur boîte de réception et bénéficier de briefings personnalisés. CC est hébergé sur Google Labs et disponible via liste d’attente.

Apple Music a ajouté une intégration ChatGPT qui permet aux utilisateurs de créer des listes de lecture via des invites conversationnelles. Cette fonctionnalité destinée à l’utilisateur transforme les instructions de discussion en génération de playlist. Dans un article de Substack, Fidji Simo, responsable produit d’OpenAI le positionne comme l’une des nombreuses « applications dans ChatGPT » qui seront proposées aux utilisateurs, créant des expériences d’IA plus dynamiques.

Mistral AI a publié Mistral OCR 3un modèle d’IA plus petit pour la reconnaissance optique de caractères (OCR). OCR 3 extrait le texte entrelacé et les images intégrées des PDF et des images dans des démarques enrichies de tableaux HTML. Mistral rapporte un taux de réussite de 74 % pour l’OCR3 par rapport à l’OCR 2 sur les benchmarks internes. Il est adapté aux cas difficiles tels que les notes manuscrites, les formulaires complexes, les numérisations de mauvaise qualité et les tableaux denses.

Zoom a lancé AI Companion 3.0 avec des flux de travail agentsune mise à jour de l’agent IA qui ajoute davantage de flux de travail agentiques pour transformer le contenu des réunions en informations et en actions. AI Companion transforme les résumés en aide à l’exécution des tâches dans les produits Zoom, en tirant parti de modèles d’IA tiers pour prendre en charge les tâches.

Manus a sorti Manus 1.6 Max et a annoncé la prise en charge du développement d’applications mobiles et une nouvelle fonctionnalité Design View. Manus décrit Manus 1.6 Max comme son agent d’IA le plus puissant à ce jour, avec une nouvelle architecture d’agent de base pour gérer des flux de travail plus complexes et des taux de réussite uniques plus élevés. La fonctionnalité « Design View » prend en charge la création d’images/sorties visuelles.

Google a annoncé que Gemini Deep Research peut désormais générer des visualisationsincluant des diagrammes, des illustrations, des graphiques et des schémas dans des rapports :

Deep Research peut aller au-delà du texte pour générer des rapports visuels riches complets avec des images personnalisées, des graphiques et des simulations interactives.

OpenAI a annoncé une fonctionnalité de branchement de chat AI sur iOS et Android. La mise à jour est une fonctionnalité UX qui permet aux utilisateurs de bifurquer ou de créer un fil de conversation pour explorer des directions alternatives.

DoorDash a lancé une application sociale basée sur l’IA appelée Zesty qui utilise l’IA pour aider les gens à découvrir les restaurants à proximité et à partager des recommandations sur les réseaux sociaux. Zesty dispose d’un flux de découverte ainsi que de fonctionnalités sociales (suivi, partage, publication) avec une personnalisation basée sur l’IA.

Alibaba a annoncé Qwen Code v0.5.0, avec intégration VS Code et SDK TypeScript natif, le positionnant comme une expérience de codage/développeur plus utilisable.

Meta a dévoilé SAM Audioun modèle d’IA multimodal unifié pour séparer et manipuler des sons à l’aide de messages textuels ou visuels. Tout comme son modèle SAM (Segment Anything Model) peut segmenter les éléments visuels d’une image, SAM Audio de Meta peut séparer les sons d’une source sonore à l’aide d’invites textuelles ; par exemple, une invite textuelle « aboiement de chien » produira uniquement un aboiement de chien à partir d’une source sonore fusionnée. Ceci est utile pour diverses tâches d’édition audio, telles que la suppression du bruit ou la production musicale, où des invites indiquent les sons à isoler ou à modifier. Meta a publié le recherche derrière SAM Audio sur le blog IA de Meta.

Lancement de l’Institut Allen pour l’IA Bolmoun modèle d’IA qui est tokenisé au niveau de l’octet et atteint la parité avec des modèles de taille similaire en utilisant la tokenisation standard. En traitant les entrées au niveau des octets, y compris les images, l’audio et le texte, l’architecture de BOLMO peut ouvrir de nouvelles voies pour le traitement universel des données et la compréhension du contenu, élargissant ainsi les capacités multimodales. Le rapport technique «Bolmo : Byteifying la prochaine génération de modèles de langage» explique plus de détails sur l’architecture et la formation de Bolmo.

OpenAI a publié le benchmark FrontierScience, une évaluation axée sur la recherche scientifique de niveau expert tâches couvrant la physique, la chimie et la biologie. Le benchmark est composé de questions d’évaluation qui mesurent à la fois les capacités de raisonnement scientifique de type Olympiade et les capacités de recherche scientifique dans le monde réel. L’annonce le présente comme un moyen de mesurer la capacité du modèle sur les travaux scientifiques pertinents pour la recherche. La description et la justification du benchmark sont fournies dans l’article d’OpenAI.

Figure 5. Comment les modèles d’IA frontaliers se comparent au benchmark FrontierScience.

OpenAI a publié des résultats affirmant que GPT-5 a multiplié par 79 l’efficacité du clonage moléculaire en laboratoire humide.
OpenAI a décrit comment son modèle a été appliqué aux flux de travail de recherche biologique en laboratoire humide, y compris les protocoles de clonage moléculaire, et a obtenu des améliorations significatives de l’efficacité mesurée, accélérant ainsi la recherche biologique. Le résumé de la recherche est hébergé sur le site Web d’OpenAI.

Nous avons eu une assiette pleine de publications sur l’IA et d’actualités sur la recherche en IA grâce à la ruée vers les versions d’IA avant Noël, nous allons donc ignorer d’autres actualités sur l’IA. Profitez des nouveaux goodies de l’IA pendant les fêtes !

Leave a Reply

Your email address will not be published. Required fields are marked *