Nouvelles Nouveau modèle DeepSeek V3-0324 défie GPT-4o et Claude-3.5

Nouveau modèle DeepSeek V3-0324 défie GPT-4o et Claude-3.5

DoubleA
Lire en version complète

DeepSeek AI a annoncé une mise à jour majeure de son modèle phare — DeepSeek V3-0324. Le modèle, disponible sur GitHub et Hugging Face, non seulement rattrape mais dépasse également les alternatives fermées comme GPT-4o et Claude-3.5-Sonnet dans plusieurs domaines clés.

Au cœur de la mise à jour se trouve une architecture Mixture-of-Experts (MoE) améliorée, où 671 milliards de paramètres sont activés dynamiquement par morceaux de 37 milliards par token. La technologie Multi-head Latent Attention réduit la consommation de mémoire de 60 %, tandis que la prédiction Multi-Token augmente la vitesse de génération de texte de 1,8 fois. Le modèle a été entraîné sur un ensemble de données comprenant des problèmes mathématiques, du code en 15 langues et des articles scientifiques. L'entraînement a pris 2,788 millions d'heures GPU sur des clusters H800 — l'équivalent de 318 ans de travail continu sur un seul accélérateur. Le résultat : 89,3 % de précision dans la résolution de problèmes mathématiques de niveau scolaire (GSM8K) et un taux de réussite de 65,2 % dans la génération de code (HumanEval) — 10 à 15 % plus élevé que les solutions open-source précédentes.

La mise à jour a apporté des améliorations inattendues :

  • La génération de code frontend produit désormais des interfaces visuellement attrayantes ;
  • La qualité du texte a atteint une fluidité de niveau humain dans les essais longs ;
  • La précision des appels de fonction a atteint 92 %, résolvant l'un des problèmes clés des versions précédentes.

Bien que les notes de mise à jour officielles n'aient pas encore été publiées, la taille du modèle serait de 700 Go. Il est disponible via API avec un système unique de "calibration de température" : le paramètre standard de 1,0 est automatiquement ajusté à un optimal de 0,3. Pour le déploiement local, les développeurs se voient proposer des modèles de prompt modifiés avec support pour la recherche web et l'analyse de fichiers — une fonctionnalité auparavant disponible uniquement dans des solutions commerciales premium.

Les experts prédisent que DeepSeek V3-0324 pourrait perturber le marché des assistants IA pour la programmation et l'analyse de données. Sa disponibilité en open-source sous une licence MIT ouvre la voie à la personnalisation — de l'automatisation des processus métiers à la création d'assistants scientifiques spécialisés.

Commentaires 0
Laisser un commentaire