Intelligence artificielle : des lacunes dans le raisonnement logique des LLM révélées par une étude

L’intelligence artificielle (IA), en particulier les grands modèles de langage (LLM), suscite de plus en plus d’intérêt et d’attentes, notamment en raison de leur supposée capacité à raisonner. Cependant, malgré les affirmations des entreprises du secteur, les LLM sont encore loin de maîtriser les bases d’un véritable raisonnement logique, selon une nouvelle étude qui met en lumière leurs limitations.

Les LLM et le défi du raisonnement logique

Les LLM, comme ChatGPT, sont souvent présentés comme des outils capables d’analyser et de comprendre des problèmes nouveaux en produisant des réponses logiquement cohérentes. Cette prétendue capacité de raisonnement est mise en avant par des entreprises souhaitant prouver la maturité de leurs modèles. Mais une étude récente relayée par Ars Technica démontre que ces modèles, même les plus avancés, échouent régulièrement face à des pièges logiques relativement simples.

Cette étude, menée par six ingénieurs d’Apple, met en évidence les limites des LLM à travers un benchmark de problèmes mathématiques. Elle révèle que ces modèles n’ont pas encore acquis la capacité d’analyser des situations de manière fiable lorsqu’ils sont confrontés à des variations dans les énoncés des questions.

Un benchmark rigoureux pour évaluer les capacités de raisonnement

Pour tester les LLM, les chercheurs se sont basés sur un ensemble de données de 8000 exercices de mathématiques niveau primaire appelé GSM8K, un standard utilisé dans le domaine pour évaluer les performances des modèles IA en matière de logique et de résolution de problèmes. Par exemple, lors de son lancement, GPT-4 avait obtenu un score impressionnant de 92 % sur ce benchmark, suscitant des revendications sur ses capacités de raisonnement.

Toutefois, ce genre de benchmark pose problème : dans certains cas, les questions et réponses ont été directement intégrées dans les données d’entraînement, ce qui permet aux modèles de donner la bonne réponse sans faire appel à une analyse logique. Les chercheurs ont donc créé une version plus exigeante de ce benchmark, baptisée GSM-Symbolic, avec des modifications qui permettent d’évaluer la capacité des LLM à s’adapter à des énoncés légèrement différents.

GSM-Symbolic : un benchmark adaptatif et exigeant

Le benchmark GSM-Symbolic introduit des variations procédurales dans les problèmes. Par exemple, un problème initial portant sur le temps requis par un pâtissier pour faire 30 gâteaux peut être transformé en un exercice où un mécanicien doit réparer 15 voitures. Les chiffres et le contexte sont modifiés, mais le raisonnement reste le même. Ces changements permettent de tester si les LLM peuvent généraliser et comprendre le raisonnement sous-jacent, indépendamment des éléments de surface.

Les résultats de l’étude montrent cependant que les modèles actuels peinent à maintenir leur performance sur GSM-Symbolic. De nombreux modèles ont vu leurs scores chuter de manière significative, incapables de s’adapter à ces modifications mineures. Par exemple, le modèle Mistral-7b-it-v0.1 a subi une baisse de 9,2 % sur GSM-Symbolic, illustrant une vulnérabilité face à des modifications qu’un humain considérerait comme triviales.

Des pièges simples mais destructeurs pour les LLM

Face à ces ajustements, les LLM, qui réussissent généralement sur des benchmarks statiques, sont mis à l’épreuve. Un humain, même un enfant, parviendrait probablement à faire abstraction des changements d’énoncé et à se concentrer sur la résolution du problème, mais pour ces modèles, ces variations posent de sérieux obstacles. Lors des tests, les chercheurs ont observé une forte instabilité dans les performances des LLM, avec des scores variant de 15 % d’une itération à l’autre, même pour le même type de problème.

Quelques modèles, comme GPT-4, ont tout de même montré une certaine résilience avec une baisse de seulement 0,3 %. Mais les chercheurs n’ont pas voulu s’arrêter là et ont introduit une nouvelle série de pièges pour évaluer encore plus finement les capacités des LLM à identifier les informations pertinentes dans un problème.

Des détails sans importance qui piègent les LLM

Dans cette nouvelle série de tests, les chercheurs ont ajouté des détails inutiles dans les énoncés. Par exemple, dans un exercice sur la quantité de kiwis récoltés, ils ont mentionné que certains fruits étaient légèrement plus petits que d’autres. Cette information est sans conséquence pour la résolution du problème, et un adulte aurait vite compris qu’il faut l’ignorer.

Pourtant, les LLM ont eu du mal à faire abstraction de ces informations, au point que leurs performances se sont effondrées. GPT-4, par exemple, a vu son score baisser de 32 % avec l’ajout de ces détails insignifiants, tandis que le modèle Phi-3-mini-128k-instruct a affiché une baisse dramatique de 65,7 %.

Raisonnement ou imitation ?

Cette étude met en évidence les limites des LLM en termes de raisonnement. Les chercheurs concluent que ces modèles ne sont pas encore capables de véritable raisonnement logique. En réalité, les LLM tentent de simuler le raisonnement en répliquant des schémas observés dans leurs données d’entraînement. Ils fonctionnent en grande partie par imitation, se fiant aux motifs et relations préexistants dans les informations dont ils disposent, sans véritable compréhension.

Cette approche, bien que performante dans des situations bien définies, échoue dès que les modèles sont confrontés à des problèmes nouveaux ou modifiés. En d’autres termes, les LLM ne sont pas encore des « penseurs » autonomes ; ils ne font que reproduire des réponses apprises.

Un changement de paradigme nécessaire ?

Cette étude soulève une question cruciale sur les limites des modèles actuels : un changement de paradigme pourrait-il être nécessaire ? Les modèles actuels, basés sur la reconnaissance de motifs et la mémorisation d’énormes quantités de données, atteignent des limites qui les empêchent de développer un raisonnement réel. Pour les humains, la construction d’une véritable intelligence passe par l’apprentissage de concepts abstraits, ce qui leur permet de raisonner et de s’adapter.

Appliquer ce type de raisonnement aux IA représenterait un défi technique majeur, nécessitant probablement une refonte complète de l’architecture de ces modèles. Un tel changement pourrait ouvrir la voie à une nouvelle génération de LLM, capables d’aller au-delà de la simple imitation pour atteindre une compréhension plus profonde.

Face à cette réalité, un discours plus transparent semble nécessaire pour éviter de fausses attentes et encourager une compréhension plus juste des capacités réelles de l’IA. Les défis sont nombreux, et l’IA reste un domaine en évolution rapide, mais pour gagner la confiance du public, la communication autour des limites et des forces des LLM doit être honnête et rigoureuse.