📢 #GateOpinionQuest# para #49# está online! DYOR em Swell (SWELL), partilhe a sua opinião no Gate.io Post, agarre um prémio de $100 SWELL!
💰 Selecione 10 participantes sortudos, ganhe facilmente uma recompensa de $10 em $SWELL!
👉 Como participar:
1. Pesquisar Swell (SWELL) e partilhar a sua opini
Os modelos de linguagem mais quentes adoram "absurdo" Quem tem o pior problema de "ilusão"?
Fonte: Wall Street News
Autor: Du Yu
A Arthur AI, uma startup de inteligência artificial e plataforma de monitoramento de aprendizado de máquina sediada em Nova York, divulgou seu último relatório de pesquisa na quinta-feira, 17 de agosto, comparando OpenAI apoiado pela Microsoft, Metaverse Meta, Anthropic apoiado pelo Google e geração apoiada pela Nvidia. modelos de linguagem grande (LLMs) para "alucinar" (AKA nonsense) de empresas como AI unicorn Cohere.
A Arthur AI atualiza regularmente o programa de pesquisa mencionado acima, apelidado de "Avaliação de teste de IA generativa", para classificar os pontos fortes e fracos dos líderes do setor e outros modelos LLM de código aberto.
Os testes mais recentes selecionaram GPT-3.5 da OpenAI (contém 175 bilhões de parâmetros) e GPT-4 (1,76 trilhões de parâmetros), Claude-2 da Anthropic (parâmetros desconhecidos), Llama-2 da Meta (70 bilhões de parâmetros) e Command (50 bilhões de parâmetros) do Cohere e faça perguntas desafiadoras sobre esses principais modelos LLM, tanto quantitativa quanto qualitativamente.
No "Teste de Alucinação de Modelo AI", os pesquisadores examinaram as respostas dadas por diferentes modelos LLM com perguntas em categorias tão diversas quanto combinatória, presidentes dos EUA e líderes políticos marroquinos. São necessárias várias etapas de raciocínio sobre as informações."
O estudo constatou que, no geral, o GPT-4 da OpenAI teve o melhor desempenho de todos os modelos testados, produzindo menos problemas "alucinantes" do que a versão anterior, GPT-3.5, como alucinações reduzidas na categoria de problemas matemáticos 33% a 50%.
Ao mesmo tempo, o Llama-2 da Meta ficou no meio dos cinco modelos testados, e o Claude-2 da Anthropic ficou em segundo lugar, perdendo apenas para o GPT-4. E o modelo LLM de Cohere é o mais capaz de "absurdo" e "dar respostas erradas com muita confiança".
Especificamente, em problemas matemáticos complexos, o GPT-4 ocupa o primeiro lugar, seguido pelo Claude-2; na questão do presidente dos EUA, a precisão do Claude-2 ocupa o primeiro lugar e o GPT-4 ocupa o primeiro lugar; em questões políticas marroquinas, o GPT -4 voltou ao primeiro lugar, com Claude-2 e Llama 2 escolhendo quase inteiramente não responder a essas perguntas.
Os pesquisadores também testaram até que ponto os modelos de IA "protegiam" suas respostas com frases de advertência irrelevantes para evitar riscos, frases comuns como "Como modelo de IA, não posso fornecer uma opinião".
O GPT-4 teve um aumento relativo de 50% nos avisos de cobertura em relação ao GPT-3.5, que o relatório diz "quantifica a experiência mais frustrante que os usuários citaram com o GPT-4". E o modelo de IA da Cohere não oferece proteção alguma nos três problemas acima.
Por outro lado, o Claude-2 da Anthropic era o mais confiável em termos de "autoconsciência", a capacidade de medir com precisão o que sabe e o que não sabe, e apenas responder a perguntas apoiadas por dados de treinamento.
Adam Wenchel, co-fundador e CEO da Arthur AI, destacou que este é o primeiro relatório do setor a "compreender de forma abrangente a incidência de alucinações em modelos de inteligência artificial", e não fornece apenas um único dado para ilustrar o ranking de diferentes LLMs:
No mesmo dia em que o relatório de pesquisa mencionado acima foi publicado, a Arthur Company também lançou o Arthur Bench, uma ferramenta de avaliação de modelo de IA de código aberto, que pode ser usada para avaliar e comparar o desempenho e a precisão de vários LLMs. As empresas podem adicionar padrões personalizados para atender às suas próprias necessidades de negócios. O objetivo é ajudar as empresas a tomar decisões informadas ao adotar a IA.
"Alucinações de IA" (alucinações) referem-se a chatbots que fabricam informações completamente e parecem jorrar fatos em resposta a perguntas do usuário.
O Google fez declarações falsas sobre o Telescópio Espacial James Webb em um vídeo promocional de fevereiro para seu chatbot AI generativo Bard. Em junho, o ChatGPT citou um caso "falso" em um processo no tribunal federal de Nova York, e os advogados envolvidos no processo podem enfrentar sanções.
Pesquisadores da OpenAI relataram no início de junho que haviam encontrado uma solução para a "ilusão da IA", ou seja, treinar o modelo de IA para dar auto-recompensa a cada passo correto na dedução da resposta, não apenas esperando até a resposta correta conclusão final é inferida Apenas recompensado. Essa estratégia de "supervisão de processo" incentivará os modelos de IA a raciocinar de maneira mais humana.
A OpenAI reconheceu no relatório:
Soros, o magnata dos investimentos, também publicou uma coluna em junho dizendo que a inteligência artificial pode agravar a policrise que o mundo enfrenta no momento. Uma das razões são as graves consequências da ilusão da IA:
Anteriormente, Geoffrey Hinton, que era considerado o "padrinho da inteligência artificial" e saiu do Google, criticou publicamente os riscos trazidos pela IA muitas vezes, podendo até destruir a civilização humana, e previu que "a inteligência artificial leva apenas 5 para pode superar inteligência humana em 20 anos."