Les systèmes d’intelligence artificielle de pointe comme Chatgpt d’Openai, les Gemini de Google et le Claude d’Anthropic ont capturé l’imagination publique en produisant un texte fluide en plusieurs langues en réponse aux invites utilisateur. Ces entreprises ont également fait la une des journaux avec les énormes sommes qu’ils ont investies pour construire des modèles de plus en plus puissants.
Une startup en IA de Chine, Deepseek, a bouleversé les attentes quant à la quantité d’argent nécessaire pour construire la dernière et la plus grande IA. Dans le processus, ils ont mis en doute les milliards de dollars d’investissement par les grands joueurs de l’IA.
J’étudie l’apprentissage automatique. Les débuts perturbateurs de Deepseek ne descend pas d’une percée technologique étonnante mais d’une pratique séculaire: trouver des gains d’efficacité. Dans un domaine qui consomme de vastes ressources informatiques, qui s’est avérée significative.
Où les coûts sont
Le développement de systèmes d’IA aussi puissants commence par la construction d’un modèle de langue large. Un grand modèle de langue prédit le mot suivant compte tenu des mots précédents. Par exemple, si le début d’une phrase est «la théorie de la relativité a été découverte par Albert», un modèle de langue large pourrait prédire que le mot suivant est «Einstein». Les modèles de grands langues sont formés pour devenir bons dans de telles prédictions dans un processus appelé pré-formation.
La pré-formation nécessite beaucoup de données et de puissance de calcul. Les entreprises collectent des données en rampant sur le Web et en scannant des livres. L’informatique est généralement alimentée par des unités de traitement graphiques ou des GPU. Pourquoi les graphiques? Il s’avère que l’infographie et les réseaux de neurones artificiels qui sous-tendent les modèles de grandes langues reposent sur le même domaine de mathématiques appelé algèbre linéaire. Les modèles de grands langues stockent en interne des centaines de milliards de nombres appelés paramètres ou poids. Ce sont ces poids qui sont modifiés pendant la pré-formation.
La pré-entraînement n’est cependant pas suffisante pour produire un produit de consommation comme Chatgpt. Un modèle de grande langue pré-entraîné n’est généralement pas bon pour suivre les instructions humaines. Il pourrait également ne pas être aligné sur les préférences humaines. Par exemple, il peut produire un langage nuisible ou abusif, tous deux présents dans le texte sur le Web.
Le modèle pré-entraîné passe généralement par des étapes supplémentaires de formation. Une telle étape est le réglage des instructions où le modèle est montré des exemples d’instructions humaines et de réponses attendues. Après l’instruction, le réglage vient une scène appelée apprentissage du renforcement des commentaires humains. À ce stade, les annotateurs humains sont présentés à plusieurs réponses du modèle de langue importante à la même invite. Les annotateurs sont ensuite invités à souligner la réponse qu’ils préfèrent.
Il est facile de voir comment les coûts s’additionnent lors de la construction d’un modèle d’IA: embaucher des talents d’IA de qualité supérieure, la construction d’un centre de données avec des milliers de GPU, la collecte de données pour la pré-formation et l’exécution de prélèvement sur les GPU. De plus, il y a des coûts impliqués dans la collecte et le calcul des données dans le réglage des instructions et l’apprentissage du renforcement des étapes de rétroaction humaine.
Tous inclus, les coûts pour construire un modèle d’IA de pointe peuvent monter jusqu’à 100 millions de dollars. La formation GPU est une composante importante du coût total.
La dépense ne s’arrête pas lorsque le modèle est prêt. Lorsque le modèle est déployé et répond aux invites utilisateur, il utilise plus de calcul appelé temps de test ou temps de temps d’inférence. Le calcul du temps de test a également besoin de GPU. En décembre 2024, Openai a annoncé un nouveau phénomène qu’ils ont vu avec leur dernier modèle O1: à mesure que le calcul du temps de test augmentait, le modèle s’est amélioré dans des tâches de raisonnement logique telles que les problèmes de codage de mathématiques et de codage compétitif.
Diminution de la consommation de ressources
Ainsi, il semblait que la voie de la construction des meilleurs modèles d’IA au monde était d’investir dans plus de calcul pendant la formation et l’inférence. Mais alors Deepseek est entré dans la mêlée et a frotté cette tendance.
Leurs modèles de la série V, culminant dans le modèle V3, ont utilisé une série d’optimisations pour rendre les modèles d’IA de pointe de la formation beaucoup plus économiques. Leur rapport technique indique qu’il leur a fallu moins de 6 millions de dollars pour former la V3. Ils admettent que ce coût n’inclut pas les coûts d’embauche de l’équipe, de faire la recherche, d’essayer diverses idées et de collecte de données. Mais 6 millions de dollars est toujours un chiffre impressionnant pour la formation d’un modèle qui rivalise avec des modèles d’IA à la tête développés avec des coûts beaucoup plus élevés.
La réduction des coûts n’était pas due à une seule solution magique. Il s’agissait d’une combinaison de nombreux choix d’ingénierie intelligents, notamment en utilisant moins de bits pour représenter les poids des modèles, l’innovation dans l’architecture du réseau neuronal et la réduction des frais généraux de communication à mesure que les données sont passées entre les GPU.
Il est intéressant de noter qu’en raison des restrictions d’exportation américaines sur la Chine, l’équipe Deepseek n’avait pas accès à des GPU haute performance comme le NVIDIA H100. Au lieu de cela, ils ont utilisé des GPU NVIDIA H800, que NVIDIA a conçu pour être des performances plus faibles afin qu’ils respectent les restrictions d’exportation américaines. Travailler avec cette limitation semble avoir déclenché encore plus d’ingéniosité de l’équipe Deepseek.
Deepseek a également innové pour rendre l’inférence moins chère, réduisant le coût de la gestion du modèle. De plus, ils ont publié un modèle appelé R1 comparable au modèle O1 d’OpenAI sur les tâches de raisonnement.
Ils ont publié tous les poids du modèle pour V3 et R1 publiquement. Tout le monde peut télécharger et encore améliorer ou personnaliser ses modèles. En outre, Deepseek a publié leurs modèles sous la licence MIT permissive, qui permet à d’autres d’utiliser les modèles à des fins personnelles, académiques ou commerciales avec des restrictions minimales.
Réinitialiser les attentes
Deepseek a fondamentalement modifié le paysage des grands modèles d’IA. Un modèle de poids ouvert formé économiquement est maintenant à égalité avec des modèles plus chers et fermés qui nécessitent des plans d’abonnement payants.
La communauté de recherche et le marché boursier auront besoin de temps pour s’adapter à cette nouvelle réalité.