Les grands modèles d’intelligence artificielle deviennent moins fiables
Des chercheurs ont constaté que les modèles d’intelligence artificielle ont tendance à moins bien répondre aux questions simples à mesure qu’ils deviennent plus grands et plus complexes.
Une étude, publiée dans Nature, a examiné les performances de plusieurs familles de grands modèles de langage (LLM), notamment la série GPT d’OpenAI et les modèles Llama de Meta.
Elle a révélé que si ces modèles excellent dans les tâches complexes, ils ont souvent du mal à maîtriser les compétences fondamentales, telles que l’arithmétique de base et les requêtes simples.
Cet écart est appelé « discordance de difficulté » et met en évidence un décalage fondamental entre les performances accrues des modèles de langage avancés dans les tâches complexes et leurs difficultés constantes dans les compétences de base, pourtant essentielles.
La lutte pour les compétences de base
Contrairement aux attentes, la recherche suggère que l’augmentation de la taille des modèles linguistiques pourrait potentiellement exacerber les problèmes existants en matière de précision et de fiabilité.
À mesure que la taille du modèle augmente, ces systèmes deviennent plus susceptibles de générer des réponses inexactes, souvent bien qu’ils sachent qu’ils ne possèdent pas les connaissances ou les données nécessaires pour fournir une réponse fiable.
Il peut en résulter un schéma de rendements décroissants, où les améliorations dans certains domaines s’accompagnent de détériorations dans d’autres.
Les chercheurs ont observé que la fiabilité des grands modèles linguistiques fluctue considérablement dans divers domaines et tâches, ce qui conduit à des résultats imprévisibles.
Les résultats de l’étude soulignent les insuffisances des méthodologies contemporaines de formation à l’IA et impliquent que des techniques telles que l’apprentissage par renforcement avec retour d’information humain peuvent, par inadvertance, exacerber le problème.
Afin de répondre à ces préoccupations, les experts suggèrent d’utiliser des messages-guides plus raffinés et plus ciblés, tout en mettant davantage l’accent sur la précision et la pertinence des données de formation.
L’ingénierie des messages-guides est essentielle pour résoudre ces problèmes, car des modèles avancés comme le GPT-4 peuvent produire des résultats très différents sur la base de légères modifications de la formulation.
Les entreprises doivent mettre davantage l’accent sur le développement de systèmes d’IA capables de reconnaître leurs limites et de refuser de fournir des réponses lorsqu’ils sont confrontés à des questions ambiguës ou incertaines.