Le laboratoire chinois d’intelligence artificielle DeepSeek a récemment lancé son modèle de pointe DeepSeek R1, rivalisant avec le modèle ChatGPT o1 d’OpenAI. Rapidement propulsé au sommet de l’App Store d’Apple, DeepSeek R1 remet en question les coûts élevés et les méthodes intensives en matériel des modèles IA traditionnels.

Dans cet article, nous comparons les performances des deux modèles sur plusieurs tests complexes de raisonnement.

1. Attention détournée

Les modèles linguistiques, tels que ChatGPT et DeepSeek sont souvent critiqués comme des « perroquets statistiques », reposant sur des schémas appris sans réelle compréhension. Pour tester leur capacité de raisonnement, j’ai soumis les modèles à des casse-têtes conçus pour les induire en erreur.

Exemple : « Le chirurgien, qui est le père du garçon, dit : “Je ne peux pas opérer ce garçon, c’est mon fils !” Qui est le chirurgien pour le garçon ? »

Les deux modèles ont répondu que le chirurgien était la mère du garçon, tombant ainsi dans le piège d’une lecture biaisée et d’une interprétation erronée.

Gagnant : Aucun

2. Raisonnement mathématique

Ensuite, j’ai testé les modèles avec une question nécessitant logique et créativité : « Comment utiliser trois boules de billard marquées 7, 9, 11, et 13 pour obtenir une somme de 30 ? ».

Les deux modèles ont correctement identifié qu’il fallait retourner la boule « 9 » pour la transformer en « 6 » et obtenir : 6 + 11 + 13 = 30.

Gagnant : ChatGPT o1 et DeepSeek R1

3. Questions mythologiques

Le Centre pour la Sécurité de l’IA a récemment lancé un benchmark nommé Humanity’s Last Exam (HLE), contenant des questions complexes.
Question : « Dans la mythologie grecque, qui était l’arrière-grand-père maternel de Jason ? ».

ChatGPT o1 a correctement répondu Hermès, tandis que DeepSeek R1 a donné la mauvaise réponse : Éole.

Gagnant : ChatGPT o1

4. Le problème du tramway

Testons à nouveau la capacité des modèles à traiter des scénarios éthiques détournés : « Un tramway se dirige vers cinq personnes déjà mortes. Vous pouvez détourner le tramway vers une voie où une personne vivante est attachée. Que faites-vous ? ».

ChatGPT o1 a identifié le détail clé (« cinq personnes déjà mortes ») et a recommandé de ne pas actionner le levier, tandis que DeepSeek R1 a évité une réponse claire en insistant sur l’absence de solution universelle. Néanmoins, il indique que meilleure décision semble être de ne pas détourner le tramway.

Gagnant : ChatGPT o1 et DeepSeek R1

5. Raisonnement mathématique : Mesure avec des jerricans

Question : « Avec des jerricans de 6 et 12 litres, comment mesurer précisément 4 litres ? ».

ChatGPT a correctement conclu qu’il est mathématiquement impossible de mesurer 4 litres avec ces jerricans, calculant que 4 n’est pas un multiple du plus grand commun diviseur (PGCD) (6 et 12). En revanche, DeepSeek R1 a tourné en boucle ne trouvant jamais la solution.

Gagnant : ChatGPT o1

6. Censure politique

DeepSeek R1 applique une censure stricte sur des sujets sensibles comme Xi Jinping, la démocratie ou les Ouïghours. Par exemple, il refuse de répondre à des questions mentionnant Xi Jinping.

En revanche, ChatGPT o1 aborde sans problème des sujets politiquement sensibles. Lorsqu’on lui demande une blague sur Donald Trump, il fournit une réponse humoristique et incisive.

Gagnant : ChatGPT o1

Conclusion : Quel modèle choisir ?

Si vous recherchez un modèle IA capable et économique, DeepSeek R1 est une alternative intéressante à ChatGPT o1. Il est gratuit et son API coûte 27 fois moins cher que celle de ChatGPT o1, ce qui pourrait bouleverser le marché.

Cependant, en termes de performances générales et de précision, ChatGPT o1 reste supérieur, comme démontré dans plusieurs tests. De plus, la censure stricte de DeepSeek R1 sur des sujets politiques peut limiter son utilité pour certains utilisateurs.

Enfin, l’innovation clé de DeepSeek réside dans sa méthode de formation économique, utilisant d’anciens GPU pour un coût de seulement 5,8 millions de dollars. Cette avancée pourrait inspirer d’autres laboratoires IA à suivre son modèle.

Verdict final

Pour les performances et l’ouverture : ChatGPT o1.
Pour le coût et l’accessibilité : DeepSeek R1.

Microsoft sans mot de passe : La révolution des passkeys est lancée !

Tim Cook indique que la nouvelle version de Siri prend plus de temps que prévu

Windows 11 25H2 : pas de révolution, mais une mise à jour stable en vue

Google importe ses AI Overviews sur YouTube : la fin du clic ?

Test des Huawei FreeArc : des écouteurs ouverts à prix cassé pour les sportifs

Test des Huawei FreeBuds Pro 4 : Son haute-fidélité à un prix abordable !

Test des Xiaomi OpenWear Stereo : Une alternative aux écouteurs intra-auriculaires ?

Test du Microsoft Surface Laptop 7 : Une surprenante renaissance avec le Snapdragon X Elite

Brevet Vivo : Un second écran détachable pour le futur smartphone pliable ?

Nouvelle Honor Watch : Un teaser révèle un design circulaire premium

L’IA Google NotebookLM arrive sur mobile : Préparez vos fichiers !

Vivo X Fold 4 (ou 5) : Snapdragon 8 Gen 3, périscope… le pliable de 2025 ?

Chromebooks boostés à l’IA : Qualcomm Snapdragon X Plus arrive !

Vos enfants et Gemini : Google Family Link donne l’accès (et l’alerte)

Gemini pour enfants : Google prépare l’IA éducative… avec contrôle parental

Phi-4 : Les modèles IA de Microsoft défient les géants… sur votre PC !

Apple & Anthropic : L’IA Claude arrive dans Xcode pour coder à votre place ?

Cursor : Une erreur d’IA provoque une fuite massive d’utilisateurs

Firebase Studio : Google dévoile l’outil IA qui va révolutionner le développement d’applications !

Créez sans coder : Le Vibe Coding pour tous avec l’IA

Transformez votre MacBook en un ordinateur de bureau puissant avec une station d’accueil

L’IA au secours des API : Le guide pour les utiliser facilement, même sans coder !

Débuter sur GitHub : Le guide simple pour les développeurs

Migrer de Google à Proton : e-mails, mots de passe, fichiers, le guide étape par étape

ChatGPT o1 vs DeepSeek R1 : Quel modèle d’IA est le plus performant ?

1. Attention détournée

2. Raisonnement mathématique

3. Questions mythologiques

4. Le problème du tramway

5. Raisonnement mathématique : Mesure avec des jerricans

6. Censure politique

Conclusion : Quel modèle choisir ?

Verdict final

Pixel 9a : Lancement anticipé et améliorations majeures !

Huawei Pura 80 : Lancement repoussé à mai ou juin

The author Yohann Poiron

ChatGPT o1 vs DeepSeek R1 : Quel modèle d’IA est le plus performant ?

1. Attention détournée

2. Raisonnement mathématique

3. Questions mythologiques

4. Le problème du tramway

5. Raisonnement mathématique : Mesure avec des jerricans

6. Censure politique

Conclusion : Quel modèle choisir ?

Verdict final

The author Yohann Poiron

vous pourriez aussi aimer