R1 peut fonctionner dans un seul GPU

Table des matières

Hier le Démarrer Chine mise à jour Deepseek R1 Pour nous laisser à nouveau étonné de ce qu'il a appelé comme une “petite mise à jour”. Enfant, il a peu, car dans ses 24 premières heures, il a ébloui: il peut travailler dans un seul GPU.

Le laboratoire chinois a maintenant publié un version plus petite et distillée De son nouveau modèle de raisonnement R1, Depseek-R1-0528-QWEN3-8B, et crie qu'il bat des modèles majeurs dans certains Repères.

Le modèle mis à jour Deepseek R1, qui a pu atteindre Openai O3, paie mieux que le nouveau Gemini 2.5 Flash de Google dans AIME 2025, une série de défis liés aux questions mathématiques.

Depeeek-R1-0528-QWEN3-8B Il aborde également le modèle de raisonnement Microsoft PHI4 récemment publié dans un autre test de mathématiques, le HMMT. Et l'importance de ces modèles distillés, selon TechCrunchsont qu'ils exigent moins de ressources informatiques.

Le modèle distillé donne moins pour cette raison, mais selon la plate-forme cloud Novice, Qwen3-8b ne nécessite qu'un GPU Avec 40 Go – 80 Go de RAM pour travailler. Le modèle R1 mis à jour il y a 24 heures a besoin d'une douzaine de GP de 80 Go.

Deepseek R1 mis à jour dans différents tests contre d'autres modèles d'IA

Le Démarrer La Chine explique de la publication dans Visage étreint qui a formé DePseEK-R1-0528-QWEN3-8B ​​avec le texte généré par la version R1 mise à jour pour ajuster QWEN3-8B. C'est un modèle distillé très spécial à la fois pour le Recherche académique dans les modèles de raisonnement Quant au développement industriel axé sur les modèles à petite échelle.

Il y a un autre détail très spécial de R1 mis à jour: Être sous une licence MIT permissive peut être utilisé commercialement sans restriction. Ce qui donne à nouveau des ailes à la véritable essence de Deepseek R1, soyez Open source.

Nous soulignons qu'une “petite mise à jour” de Deepseek R1 a pu mettre le modèle à O3 d'Openai et Gemini 2.5 Pro de Google dans le raisonnement mathématique.

Vos performances sont inconnues

Dans ces premières 24 heures, DePseek R1 a déjà indiqué que Il est plus impliqué dans des processus de raisonnement plus profond et exhaustif au lieu de se dépêcher de tirer des conclusions. Ses taux d'hallucination ont chuté grâce à la fonction appelée “fiabilité”.

Les améliorations de codage sont dues à ce qu'on appelle “Codage de l'ambiance”qui est la capacité du modèle à comprendre l'intention du développeur et à produire des solutions plus naturelles et appropriées au contexte.

Pour mieux comprendre la dimension de dépseek R1 mise à jour, en battant Grok-3 Mini et en approchant Openai O3-O4-MinI pour Chatgpt, représente un progrès très remarquable pour être un modèle Open sourcecar il y a généralement une grande distance entre les solutions ouvertes et fermées.

Ici, bien que Sam Altman, PDG d'Openai, ait récemment déclaré qu'ils voulaient publier une version Open source Que ce soit la norme de l'industrie, laisse le sentiment que l'entreprise reste obstinée pour être aussi fermée que possible, juste dans la direction opposée à ce que son propre nom indique, une IA “ouverte”. Et ils auront très difficile contre Deepseek.

Depeeek-R1-0528-QWEN3-8B ​​est disponible en téléchargement De Olllama Et la version mise à jour Deepseek R1 peut être utilisée depuis hier dans les applications mobiles et dans la version Web.

Leave a Reply