Le laboratoire chinois d’intelligence artificielle DeepSeek a récemment lancé son modèle de pointe DeepSeek R1, rivalisant avec le modèle ChatGPT o1 d’OpenAI. Rapidement propulsé au sommet de l’App Store d’Apple, DeepSeek R1 remet en question les coûts élevés et les méthodes intensives en matériel des modèles IA traditionnels.
Dans cet article, nous comparons les performances des deux modèles sur plusieurs tests complexes de raisonnement.
1. Attention détournée
Les modèles linguistiques, tels que ChatGPT et DeepSeek sont souvent critiqués comme des « perroquets statistiques », reposant sur des schémas appris sans réelle compréhension. Pour tester leur capacité de raisonnement, j’ai soumis les modèles à des casse-têtes conçus pour les induire en erreur.
Exemple : « Le chirurgien, qui est le père du garçon, dit : “Je ne peux pas opérer ce garçon, c’est mon fils !” Qui est le chirurgien pour le garçon ? »
Les deux modèles ont répondu que le chirurgien était la mère du garçon, tombant ainsi dans le piège d’une lecture biaisée et d’une interprétation erronée.
- Gagnant : Aucun
2. Raisonnement mathématique
Ensuite, j’ai testé les modèles avec une question nécessitant logique et créativité : « Comment utiliser trois boules de billard marquées 7, 9, 11, et 13 pour obtenir une somme de 30 ? ».
Les deux modèles ont correctement identifié qu’il fallait retourner la boule « 9 » pour la transformer en « 6 » et obtenir : 6 + 11 + 13 = 30.
- Gagnant : ChatGPT o1 et DeepSeek R1
3. Questions mythologiques
Le Centre pour la Sécurité de l’IA a récemment lancé un benchmark nommé Humanity’s Last Exam (HLE), contenant des questions complexes.
Question : « Dans la mythologie grecque, qui était l’arrière-grand-père maternel de Jason ? ».
ChatGPT o1 a correctement répondu Hermès, tandis que DeepSeek R1 a donné la mauvaise réponse : Éole.
- Gagnant : ChatGPT o1
4. Le problème du tramway
Testons à nouveau la capacité des modèles à traiter des scénarios éthiques détournés : « Un tramway se dirige vers cinq personnes déjà mortes. Vous pouvez détourner le tramway vers une voie où une personne vivante est attachée. Que faites-vous ? ».
ChatGPT o1 a identifié le détail clé (« cinq personnes déjà mortes ») et a recommandé de ne pas actionner le levier, tandis que DeepSeek R1 a évité une réponse claire en insistant sur l’absence de solution universelle. Néanmoins, il indique que meilleure décision semble être de ne pas détourner le tramway.
- Gagnant : ChatGPT o1 et DeepSeek R1
5. Raisonnement mathématique : Mesure avec des jerricans
Question : « Avec des jerricans de 6 et 12 litres, comment mesurer précisément 4 litres ? ».
ChatGPT a correctement conclu qu’il est mathématiquement impossible de mesurer 4 litres avec ces jerricans, calculant que 4 n’est pas un multiple du plus grand commun diviseur (PGCD) (6 et 12). En revanche, DeepSeek R1 a tourné en boucle ne trouvant jamais la solution.
- Gagnant : ChatGPT o1
6. Censure politique
DeepSeek R1 applique une censure stricte sur des sujets sensibles comme Xi Jinping, la démocratie ou les Ouïghours. Par exemple, il refuse de répondre à des questions mentionnant Xi Jinping.
En revanche, ChatGPT o1 aborde sans problème des sujets politiquement sensibles. Lorsqu’on lui demande une blague sur Donald Trump, il fournit une réponse humoristique et incisive.
- Gagnant : ChatGPT o1
Conclusion : Quel modèle choisir ?
Si vous recherchez un modèle IA capable et économique, DeepSeek R1 est une alternative intéressante à ChatGPT o1. Il est gratuit et son API coûte 27 fois moins cher que celle de ChatGPT o1, ce qui pourrait bouleverser le marché.
Cependant, en termes de performances générales et de précision, ChatGPT o1 reste supérieur, comme démontré dans plusieurs tests. De plus, la censure stricte de DeepSeek R1 sur des sujets politiques peut limiter son utilité pour certains utilisateurs.
Enfin, l’innovation clé de DeepSeek réside dans sa méthode de formation économique, utilisant d’anciens GPU pour un coût de seulement 5,8 millions de dollars. Cette avancée pourrait inspirer d’autres laboratoires IA à suivre son modèle.
Verdict final
- Pour les performances et l’ouverture : ChatGPT o1.
- Pour le coût et l’accessibilité : DeepSeek R1.