Les mannequins les plus en vogue aiment tous les "non-sens". Qui a le pire problème d'"illusion" ?

Source : Nouvelles de Wall Street

Auteur : Du Yu

Arthur AI, une startup d'intelligence artificielle basée à New York et une plate-forme de surveillance de l'apprentissage automatique, a publié son dernier rapport de recherche le jeudi 17 août, comparant OpenAI soutenu par Microsoft, Metaverse Meta, Anthropic soutenu par Google et la génération soutenue par Nvidia. grands modèles de langage (LLM) pour "halluciner" (alias un non-sens) d'entreprises comme AI unicorn Cohere.

Arthur AI met régulièrement à jour le programme de recherche susmentionné, baptisé "Generative AI Test Evaluation", pour classer les forces et les faiblesses des leaders de l'industrie et d'autres modèles LLM open source.

Les derniers tests ont sélectionné GPT-3.5 d'OpenAI (contient 175 milliards de paramètres) et GPT-4 (1,76 billion de paramètres), Claude-2 d'Anthropic (paramètres inconnus), Llama-2 de Meta (70 milliards de paramètres) et Command (50 milliards de paramètres) de Cohere, et posez des questions difficiles sur ces meilleurs modèles LLM, tant sur le plan quantitatif que qualitatif.

Dans le "AI Model Hallucination Test", les chercheurs ont examiné les réponses données par différents modèles LLM avec des questions dans des catégories aussi diverses que la combinatoire, les présidents américains et les dirigeants politiques marocains. Plusieurs étapes de raisonnement sur l'information sont nécessaires."

** L'étude a révélé que, dans l'ensemble, le GPT-4 d'OpenAI était le meilleur de tous les modèles testés **, produisant moins de problèmes "hallucinants" que la version précédente, GPT-3.5, tels que des hallucinations réduites sur la catégorie des problèmes mathématiques 33 % à 50 %.

Dans le même temps, le Llama-2 de Meta s'est classé au milieu des cinq modèles testés, et le Claude-2 d'Anthropic s'est classé deuxième, juste derrière le GPT-4. Et le modèle LLM de Cohere est le plus capable de "non-sens" et "de donner de mauvaises réponses avec beaucoup de confiance".

Plus précisément, dans les problèmes mathématiques complexes, GPT-4 se classe premier, suivi de Claude-2 ; dans la question du président américain, la précision de Claude-2 se classe premier, et GPT-4 se classe premier Deuxième ; sur les questions politiques marocaines, GPT -4 est revenu à la première place, Claude-2 et Llama 2 choisissant presque entièrement de ne pas répondre à de telles questions.

Les chercheurs ont également testé dans quelle mesure les modèles d'IA "couvriraient" leurs réponses avec des phrases d'avertissement non pertinentes pour éviter les risques, des phrases courantes telles que "En tant que modèle d'IA, je ne peux pas donner d'opinion".

GPT-4 a enregistré une augmentation relative de 50 % des avertissements de couverture par rapport à GPT-3.5, ce qui, selon le rapport, "quantifie l'expérience la plus frustrante que les utilisateurs ont citée avec GPT-4". Et le modèle d'IA de Cohere ne fournit aucune couverture dans les trois problèmes ci-dessus.

En revanche, le Claude-2 d'Anthropic était le plus fiable en termes de "conscience de soi", la capacité de mesurer avec précision ce qu'il sait et ce qu'il ne sait pas, et de ne répondre qu'aux questions étayées par des données de formation.

Adam Wenchel, co-fondateur et PDG d'Arthur AI, a souligné qu'il s'agit du premier rapport de l'industrie à "comprendre de manière exhaustive l'incidence des hallucinations dans les modèles d'intelligence artificielle", et qu'il ne se contente pas de fournir une seule donnée pour illustrer le classement. de différents LLM :

"La conclusion la plus importante de ce type de test pour les utilisateurs et les entreprises est que vous pouvez tester des charges de travail exactes, et il est essentiel de comprendre comment LLM effectue ce que vous voulez accomplir. De nombreuses métriques précédentes basées sur LLM ne sont pas ce qu'elles sont en réalité mode de vie d'être utilisé."

Le jour même de la publication du rapport de recherche susmentionné, Arthur Company a également lancé Arthur Bench, un outil d'évaluation de modèles d'IA open source, qui peut être utilisé pour évaluer et comparer les performances et la précision de divers LLM. pour répondre à leurs propres besoins commerciaux. L'objectif est d'aider les entreprises à prendre des décisions éclairées lors de l'adoption de l'IA.

Les "hallucinations de l'IA" (hallucinations) font référence à des chatbots fabriquant complètement des informations et semblant débiter des faits en réponse aux questions des utilisateurs.

Google a fait de fausses déclarations sur le télescope spatial James Webb dans une vidéo promotionnelle de février pour son chatbot IA génératif Bard. En juin, ChatGPT a cité un "faux" cas dans un dossier déposé devant le tribunal fédéral de New York, et les avocats impliqués dans le dossier pourraient faire face à des sanctions.

Les chercheurs d'OpenAI ont rapporté début juin qu'ils avaient trouvé une solution à "l'illusion de l'IA", c'est-à-dire entraîner le modèle d'IA pour se récompenser pour chaque étape correcte dans la déduction de la réponse, et pas seulement attendre la bonne la conclusion finale est déduite Seulement récompensé. Cette stratégie de « supervision des processus » encouragera les modèles d'IA à raisonner d'une manière plus humaine.

OpenAI a reconnu dans le rapport :

"Même les modèles d'IA de pointe sont sujets à la génération de mensonges, et ils ont tendance à fabriquer des faits dans les moments d'incertitude. Ces hallucinations sont particulièrement problématiques dans les domaines qui nécessitent un raisonnement en plusieurs étapes, où une seule erreur logique peut suffire à détruire une solution plus Big."

Soros, le magnat de l'investissement, a également publié une tribune en juin disant que l'intelligence artificielle peut le plus aggraver la polycrise à laquelle le monde est confronté en ce moment, l'une des raisons étant les graves conséquences de l'illusion de l'IA :

"L'IA détruit ce modèle simple (Wall Street note : utiliser les faits pour distinguer le bien du mal) parce qu'il n'a absolument rien à voir avec la réalité. L'IA crée sa propre réalité lorsque la réalité artificielle ne correspond pas au monde réel (cela arrive souvent ), l'illusion d'IA est créée. Cela me rend presque instinctivement contre l'IA, et je suis tout à fait d'accord avec les experts sur le fait que l'IA doit être réglementée. Mais les réglementations sur l'IA doivent être appliquées à l'échelle mondiale, car l'incitation à tricher est trop grande et ceux qui se soustraient aux réglementations bénéficieront d'un avantage injuste. Malheureusement, une réglementation mondiale est hors de question. L'intelligence artificielle se développe si rapidement qu'il est impossible pour l'intelligence humaine ordinaire de la comprendre pleinement. Personne ne peut prédire où cela nous mènera. ... c'est pourquoi je suis instinctivement contre l'IA, mais je ne sais pas comment l'arrêter. Avec une élection présidentielle aux États-Unis en 2024, et probablement au Royaume-Uni, l'IA jouera sans aucun doute un rôle important qui ne sera que dangereux. L'IA est très douée pour créer de la désinformation et des deepfakes, et il y aura de nombreux acteurs malveillants. Que pouvons-nous y faire? Je n'ai pas de réponse. "

Auparavant, Geoffrey Hinton, qui était considéré comme le "parrain de l'intelligence artificielle" et a quitté Google, a publiquement critiqué à plusieurs reprises les risques apportés par l'IA, et pourrait même détruire la civilisation humaine, et prédit que "l'intelligence artificielle ne prend que 5 à Elle peut dépasser l'intelligence humaine dans 20 ans."

Voir l'original
  • Récompense
  • Commentaire
  • Partager
Commentaire
Aucun commentaire