DeepSeek-V3.1 : fonctionnalités, architecture et benchmarks

En août 2025, la startup chinoise d'IA DeepSeek a annoncé la sortie de DeepSeek-V3.1, une mise à niveau de mi-génération que l'entreprise présente comme sa première étape vers l'ère des agents. Cette mise à jour apporte un mode d'inférence hybride (un modèle unique pouvant fonctionner en mode « pensant » ou « non-pensant »), une fenêtre contextuelle considérablement plus longue et des améliorations post-formation ciblées pour l'appel d'outils et le comportement des agents en plusieurs étapes.

Qu'est-ce que DeepSeek-V3.1 et pourquoi est-ce important ?

DeepSeek-V3.1 est la dernière mise à jour de production de la série DeepSeek V3. Il s'agit d'une famille de modèles de langage MoE hybride (lignée V3) que DeepSeek a post-entraînée et étendue pour prendre en charge deux modes de fonctionnement visibles par l'utilisateur. Vous trouverez deux variantes principales : DeepSeek-V3.1-Base et la version complète de DeepSeek-V3.1.

Non-pensée (chat en profondeur) : un mode de complétion de chat standard optimisé pour la vitesse et l'utilisation conversationnelle.
Réflexion (recherche profonde-raisonnement) : un mode de raisonnement agentique qui privilégie le raisonnement structuré en plusieurs étapes et l'orchestration outil/agent.

La version se concentre sur trois améliorations visibles : un pipeline d'inférence hybride qui équilibre la latence et les capacités, une orchestration d'appel d'outils/d'agents plus intelligente et une fenêtre de contexte considérablement étendue (annoncée comme 128 XNUMX jetons).

Pourquoi c'est important: DeepSeek-V3.1 s'inscrit dans la tendance générale du secteur consistant à combiner des architectures MoE performantes à grande échelle avec des primitives d'outillage et des fenêtres contextuelles très longues. Cette combinaison est essentielle pour les agents d'entreprise, les workflows de recherche et de raisonnement, la synthèse de documents longs et l'automatisation pilotée par les outils, où le débit et la capacité à faire appel à des outils externes de manière déterministe sont essentiels.

Qu'est-ce qui différencie DeepSeek-V3.1 des versions précédentes de DeepSeek ?

Inférence hybride : un modèle, deux modes opératoires

Le changement architectural principal est inférence hybrideDeepSeek décrit la version 3.1 comme prenant en charge un mode « réflexion » et un mode « non-réflexion » au sein d'une même instance de modèle, sélectionnables en modifiant le modèle de chat ou en utilisant le bouton « DeepThink » de l'interface utilisateur (bouton « DeepThink » de DeepSeek). En pratique, cela signifie que le modèle peut être chargé de produire des traces de raisonnement internes (utiles pour les workflows d'agents de type chaîne de pensée) ou de répondre directement sans exposer de jetons de raisonnement intermédiaires, selon les besoins des développeurs. DeepSeek présente cela comme une voie vers des workflows plus agents, tout en laissant aux applications le choix des compromis latence/verbosité.

Fenêtre de contexte plus grande et primitives de jeton

Les notes de publication officielles signalent un fenêtre de contexte beaucoup plus grande dans la V3.1 ; les tests communautaires et les publications de l'entreprise mettent le contexte étendu à 128k jetons Pour certaines variantes hébergées, il est possible d'alimenter des conversations beaucoup plus longues, des raisonnements multi-documents ou de longues bases de code en une seule session. En complément, DeepSeek introduireait quelques jetons de contrôle spécifiques (par exemple). <｜search_begin｜>/<｜search_end｜>, <think> / </think>) destiné à structurer les appels d'outils et à délimiter les segments de « réflexion » en interne — un modèle de conception qui simplifie la coordination avec les outils externes.

Amélioration des capacités des agents/outils et des temps de latence

DeepSeek déclare que la V3.1 bénéficie de optimisation post-formation Axé sur l'appel d'outils et les tâches d'agent en plusieurs étapes, le modèle est censé obtenir des réponses plus rapidement en mode « réflexion » que les versions précédentes de DeepSeek R1, et être plus fiable lors de l'invocation d'API externes ou de l'exécution de plans en plusieurs étapes. Ce positionnement – une inférence plus rapide et plus performante pour les agents – constitue un différenciateur produit évident pour les équipes développant des assistants, des automatisations ou des workflows d'agents.

Quelle est l'architecture derrière DeepSeek-V3.1 ?

DeepSeek-V3.1 s'appuie sur les recherches fondamentales de la famille DeepSeek-V3 : un Mélange d'experts (MoE) Une infrastructure dorsale dotée d'innovations architecturales conçues pour l'efficacité et l'évolutivité. Le rapport technique public de DeepSeek-V3 (la famille sous-jacente) décrit :

Une conception MoE de grande taille avec des centaines de milliards de paramètres au total et un plus petit activé nombre de paramètres par jeton (la carte modèle répertorie 671 B de paramètres au total avec environ 37 B activés par jeton).
L'attention latente multi-têtes (MLA) et les approches de routage et de mise à l'échelle DeepSeekMoE personnalisées qui réduisent le coût d'inférence tout en préservant la capacité.
Objectifs de formation et stratégies d'équilibrage de charge qui suppriment le besoin de termes de perte d'équilibrage de charge auxiliaires et adoptent des objectifs de prédiction multi-jetons pour améliorer le débit et la modélisation de séquence.

Pourquoi MoE + MLA ?

Le mélange d'experts permet au modèle de maintenir un nombre élevé de paramètres théoriques tout en n'activant qu'un sous-ensemble d'experts par jeton, ce qui réduit le calcul par jeton. MLA est la variante d'attention de DeepSeek qui permet au modèle de dimensionner efficacement les opérations d'attention sur de nombreux experts et des contextes longs. Ces choix combinés permettent d'entraîner et de gérer des points de contrôle très volumineux tout en maintenant des coûts d'inférence exploitables pour de nombreux déploiements.

Comment DeepSeek-V3.1 se comporte-t-il dans les benchmarks et les tests en conditions réelles ?

Comparaison de la version 3.1, en quelques mots

Au-dessus de V3 (0324) : La version 3.1 constitue une nette amélioration sur tous les plans, notamment en matière de codage et de tâches d'agent. Exemple : LiveCodeBench saute de 43.0 → 56.4 (non-pensant) et → 74.8 (pensée); Aider-Polyglotte à partir de 55.1 → 68.4 / 76.3.
Versus R1-0528 : R1 reste un point de comparaison fort, « axé sur le raisonnement », mais V3.1-Penser fréquemment égale ou dépasse R1-0528 (AIME/HMMT, LiveCodeBench), tout en offrant également un chemin sans réflexion pour une utilisation à faible latence.
Connaissances générales (variantes MMLU) : La V3.1 se situe juste en dessous de la R1-0528 lorsque la « réflexion » est prise en compte, mais au-dessus de l'ancienne V3.

Connaissances générales et académiques

Benchmark (métrique)	V3.1-Non-Pensée	V3 (0324)	V3.1-Penser	R1-0528
MMLU-Redux (Correspondance exacte)	91.8	90.5	93.7	93.4
MMLU-Pro (Correspondance exacte)	83.7	81.2	84.8	85.0
GPQA-Diamant (Pass@1)	74.9	68.4	80.1	81.0

Ce que cela implique : V3.1 améliore V3 sur les tâches de connaissances/académiques ; « penser » réduit l'écart avec R1 sur les questions scientifiques difficiles (GPQA-Diamond).

Codage (non-agent)

Benchmark (métrique)	V3.1-Non-Pensée	V3 (0324)	V3.1-Penser	R1-0528
LiveCodeBench (2408–2505) (Pass@1)	56.4	43.0	74.8	73.3
Aider-Polyglotte (Précision)	68.4	55.1	76.3	71.6
Codeforces-Div1 (Notation)	-	-	2091	1930

Remarques :

LiveCodeBench (2408–2505) Indique une fenêtre agrégée (août 2024 → mai 2025). Un score Pass@1 plus élevé reflète une meilleure exactitude du premier coup sur diverses tâches de codage.
Aider-Polyglotte simule l'édition de code de style assistant dans de nombreux langages ; V3.1-Thinking est en tête, V3.1-NonThinking est un bond considérable par rapport à V3 (0324).
La carte modèle montre V3 (0324) à 55.1% sur Aider, conformément au classement public d'Aider pour cette année. (Les scores plus élevés de la V3.1 sont nouveaux sur la carte du modèle.)

Codage (tâches d'agent)

Benchmark (métrique)	V3.1-Non-Pensée	V3 (0324)	V3.1-Penser	R1-0528
SWE Vérifié (Mode Agent)	66.0	45.4	-	44.6
SWE-bench Multilingue (Mode Agent)	54.5	29.3	-	30.5
Banc terminal (Cadre Terminus 1)	31.3	13.3	-	5.7

Mise en garde importante : Ceux-ci sont évaluations d'agents utilisant les cadres internes de DeepSeek (outillage, exécution multi-étapes), et non des tests de décodage de jeton suivant purs. Ils capturent la capacité « LLM + orchestration ». Considérez-les comme Système résultats (la reproductibilité peut dépendre de la pile d'agents et des paramètres exacts).

Mathématiques et raisonnement compétitif

Benchmark (métrique)	V3.1-Non-Pensée	V3 (0324)	V3.1-Penser	R1-0528
AIME 2024 (Pass@1)	66.3	59.4	93.1	91.4
AIME 2025 (Pass@1)	49.8	51.3	88.4	87.5
HMMT 2025 (Pass@1)	33.5	29.2	84.2	79.4

Emporter: Le mode « pensée » conduit très grand ascenseurs sur les ensembles de concours de mathématiques - V3.1-Thinking dépasse R1-0528 sur AIME/HMMT dans les courses rapportées.

Assurance qualité augmentée par la recherche / « agentique »

Benchmark (métrique)	V3.1-Non-Pensée	V3 (0324)	V3.1-Penser	R1-0528
BrowseComp	-	-	30.0	8.9
BrowseComp_zh	-	-	49.2	35.7
Le dernier examen de l'humanité (Python + Recherche)	-	-	29.8	24.8
SimpleQA	-	-	93.4	92.3
Le dernier examen de l'humanité (texte uniquement)	-	-	15.9	17.7

Remarque: DeepSeek indique que les résultats de l'agent de recherche utilisent son framework de recherche interne (API de recherche commerciale + filtrage de pages, contexte 128 K). La méthodologie est ici importante ; la reproduction nécessite des outils similaires.

Quelles sont les limites et le chemin à parcourir ?

DeepSeek-V3.1 constitue une étape importante en termes d'ingénierie et de produit : il intègre l'apprentissage en contexte long, les modèles hybrides et l'architecture MoE dans un point de contrôle largement utilisable. Cependant, des limites subsistent :

La sécurité des agents dans le monde réel, l’hallucination dans le résumé en contexte long et le comportement rapide et conflictuel nécessitent toujours des mesures d’atténuation au niveau du système.
Les repères sont encourageants mais pas uniformes : les performances varient selon le domaine, la langue et la suite d’évaluation ; une validation indépendante est nécessaire.
Les facteurs géopolitiques et de chaîne d'approvisionnement (disponibilité du matériel et compatibilité des puces) ont déjà affecté le calendrier de DeepSeek et peuvent influencer la manière dont les clients se déploient à grande échelle.

Démarrage via CometAPI

CometAPI est une plateforme d'API unifiée qui regroupe plus de 500 modèles d'IA provenant de fournisseurs leaders, tels que la série GPT d'OpenAI, Gemini de Google, Claude d'Anthropic, Midjourney, Suno, etc., au sein d'une interface unique et conviviale pour les développeurs. En offrant une authentification, un formatage des requêtes et une gestion des réponses cohérents, CometAPI simplifie considérablement l'intégration des fonctionnalités d'IA dans vos applications. Que vous développiez des chatbots, des générateurs d'images, des compositeurs de musique ou des pipelines d'analyse pilotés par les données, CometAPI vous permet d'itérer plus rapidement, de maîtriser les coûts et de rester indépendant des fournisseurs, tout en exploitant les dernières avancées de l'écosystème de l'IA.

Les développeurs peuvent accéder DeepSeek R1(deepseek-r1-0528) et DeepSeek-V3.1 via API CometLes dernières versions des modèles répertoriés sont celles en vigueur à la date de publication de l'article. Pour commencer, explorez les fonctionnalités du modèle dans la section cour de récréation et consultez le Guide de l'API Pour des instructions détaillées, veuillez vous connecter à CometAPI et obtenir la clé API avant d'y accéder. API Comet proposer un prix bien inférieur au prix officiel pour vous aider à vous intégrer.

Conclusion

DeepSeek-V3.1 représente une mise à jour pragmatique et axée sur l'ingénierie : une fenêtre de contexte plus large, une inférence hybride pensée/non-pensée, des interactions d'outils améliorées et une API compatible OpenAI en font une option attrayante pour les équipes en construction assistants agents, applications à contexte long et flux de travail orientés code à faible coût.