Renvoyée au second plan de l’actualité par la soudaine percée outre-Atlantique de DeepSeek, l’IA chinoise nouvelle génération, la présentation, le 30 janvier dernier, de Small-3, nouveau modèle d’IA générative conçu par la startup française Mistral, n’en constitue pas moins un événement majeur tant ses performances sont bluffantes et prometteuses et tant ses options techniques sont plus vertueuses, en rupture avec les modèles dominants, lui ouvrant d’autant grandes les portes d’un marché en pleine expansion que Mistral vient de signer un partenariat avec l’AFP qui va grandement accroitre la pertinence et l’actualisation de ses réponses.

Rupture à tous les étages pour plus d’efficacité

Les concepteurs de Small-3 ont choisi de le cantonner à 24 milliards de paramètres de recherche quand les concurrents traditionnels travaillent sur des bases de 500 milliards et plus, exception faite de DeepSeek, justement, dont la base de recherche n’est que de 37 milliards de paramètres.

L’autre bon point de Small-3, c’est la conséquence de ces choix conjugués : une très grande réactivité ; il est en effet jusqu’à 3 fois plus rapide que la concurrence, sans altération de la pertinence et de la régularité de ses réponses, au contraire même.

Sa structuration légère le rend par ailleurs utilisable sur des ordinateurs ordinaires tels que le MacBook (32Go RAM) ou des PC tournant sous RTX 4090 ! Pas besoin de processeurs ultra puissants et/ou future génération. De quoi s’ouvrir largement le marché du particulier comme des entreprises ou collectivités.

Autre point différenciant et non négligeable pour le développement et la diffusion de Small-3, il s’agit d’un modèle open source, que tout un chacun pourra donc utiliser et adapter à ses besoins.

Pour Arthur Mensch, cofondateur de Mistral AI en avril 2023, c’est simple : « Mistral Small-3 complète les grands modèles de raisonnement open source comme les récentes versions de DeepSeek et peut servir de modèle de base solide pour faire émerger des capacités de raisonnement ».

ModèleParamètresPrécision (MMLU)Vitesse (Token/s)Open source ?Matériel recommandé
Mistral Small-324B81%150OUIMACBOOK 32Go Ram ou RTX 40990
Llama 3.370B85%50%NONInfrastructure dédiée
Qwen-2.5 32B83%60NON idem
GPT-4o-mini30B82%70NON idem

Comment lire le tableau : Small-3 dispose d’une base plus petite, mais ses réponses sont aussi pertinentes que la concurrence et elles sont rendues plus vite. Ce modèle est librement modifiable et est compatible avec des matériels « ordinaires », type MacBook.

Plus rapide, plus souple, plus économique donc… mieux

Techniquement, Small-3 est assez proche de son concurrent chinois DeepSeek en ce qu’il dispose d’une architecture optimisée de type « Mixture of experts », que l’on pourrait comparer dans le monde de l’entreprise au recours à des sous-traitants spécialisés pour effectuer chaque tâche, la difficulté consistant à bien séparer et « router » les tâches. 

Pour se faire, Mistral a opté pour un nombre de couches de recherche limité, comme indiqué plus haut, ce qui diminue le temps de latence et accélère les traitements tout en maintenant une précision élevée . En l’occurrence, Small 3 a la meilleure note sur le benchmark MMLU : 81% !

  • Vitesse fulgurante. En terme de vitesse, Small 3 traite jusqu’à 150 tokens* par seconde, est jusqu’à trois fois plus rapide que ses concurrents, les surpassant nettement dans des scénarios fréquents, ceux nécessitant des réponses rapides comme les chatbots ou les assistants conversationnels. (Voir le tableau ci-dessous)
  • Modèle librement adaptable : Contrairement à des solutions propriétaires comme GPT-4o-mini, Small 3 est librement modifiable et adaptable, ce qui le rend attractif pour les entreprises cherchant transparence et flexibilité à moindre coût. Un énorme marché, donc.
  • Ces gains conséquents d’efficience s’accompagnent par ailleurs d’une bien meilleure efficacité énergétique. Elle résulte des choix techniques de Mistral AI : une base de recherche restreinte et des réponses générées via Mixture of experts, comme vu plus haut. Tout ceci influence la consommation énergétique, or, cette consommation exponentielle de l’IA est une des craintes incidentes de son développement et de son coût.
  • Apprentissage transparent. Contrairement à certains concurrents comme DeepSeek R1, Small 3 ne pratique pas l’« apprentissage par renforcement », il n’utilise donc pas de données synthétiques, favorisant ainsi une plus grande transparence dans son entraînement tout en prévenant les risques de biais reproductibles.

On retiendra en résumé que Small-3 partage avec DeepSeek R1 une philosophie axée sur l’efficacité énergétique et la grande pertinence des réponses. Les deux modèles privilégient une architecture compacte pour réduire la consommation énergétique tout en maintenant des performances élevées. Cependant, Small 3 se distingue par sa transparence grâce à sa licence open source et son absence d’utilisation de données synthétiques, offrant une alternative robuste aux solutions concurrentes dites propriétaires.

D’ici à ce que le vent tourne pour Mistral AI et le propulse au sommet des téléchargements…