Arthur AI, una plataforma de monitoreo de aprendizaje automático y puesta en marcha de inteligencia artificial con sede en Nueva York, publicó su último informe de investigación el jueves 17 de agosto, comparando OpenAI respaldado por Microsoft, Metaverse Meta, Anthropic respaldado por Google y generación respaldada por Nvidia. modelos de lenguaje grande (LLM) para "alucinar" (también conocido como una tontería) de compañías como AI unicorn Cohere.
Arthur AI actualiza regularmente el programa de investigación antes mencionado, denominado "Evaluación de prueba de IA generativa", para clasificar las fortalezas y debilidades de los líderes de la industria y otros modelos LLM de código abierto.
Las últimas pruebas seleccionaron GPT-3.5 de OpenAI (contiene 175 mil millones de parámetros) y GPT-4 (1,76 billones de parámetros), Claude-2 de Anthropic (parámetros desconocidos), Llama-2 de Meta (70 mil millones de parámetros) y Command (50 mil millones de parámetros) de Cohere, y haga preguntas desafiantes sobre estos modelos LLM superiores tanto cuantitativa como cualitativamente.
En la "prueba de alucinación del modelo de IA", los investigadores examinaron las respuestas dadas por diferentes modelos LLM con preguntas en categorías tan diversas como combinatoria, presidentes de EE. UU. y líderes políticos marroquíes. Se requieren múltiples pasos de razonamiento sobre la información".
El estudio encontró que, en general, GPT-4 de OpenAI tuvo el mejor desempeño de todos los modelos probados, produciendo menos problemas de "alucinaciones" que la versión anterior, GPT-3.5, como alucinaciones reducidas en la categoría de problemas matemáticos 33% al 50%.
Al mismo tiempo, Llama-2 de Meta se desempeñó en el medio de los cinco modelos probados, y Claude-2 de Anthropic ocupó el segundo lugar, solo superado por GPT-4. Y el modelo LLM de Cohere es el más capaz de "tonterías" y "dar respuestas incorrectas con mucha confianza".
Específicamente, en problemas matemáticos complejos, GPT-4 ocupa el primer lugar, seguido de Claude-2; en la pregunta del presidente de los EE. UU., la precisión de Claude-2 ocupa el primer lugar, y GPT-4 ocupa el primer lugar Segundo; en cuestiones políticas marroquíes, GPT -4 volvió al primer lugar, con Claude-2 y Llama 2 eligiendo casi por completo no responder tales preguntas.
Los investigadores también probaron hasta qué punto los modelos de IA "cubrían" sus respuestas con frases de advertencia irrelevantes para evitar riesgos, frases comunes que incluyen "Como modelo de IA, no puedo dar una opinión".
GPT-4 tuvo un aumento relativo del 50 % en las advertencias de cobertura sobre GPT-3.5, que según el informe "cuantifica la experiencia más frustrante que los usuarios han citado con GPT-4". Y el modelo de IA de Cohere no proporciona ninguna cobertura en los tres problemas anteriores.
Por el contrario, el Claude-2 de Anthropic fue el más confiable en términos de "autoconciencia", la capacidad de medir con precisión lo que sabe y lo que no sabe, y solo responde preguntas respaldadas por datos de entrenamiento.
Adam Wenchel, cofundador y director ejecutivo de Arthur AI, señaló que este es el primer informe de la industria que "comprende de manera integral la incidencia de las alucinaciones en los modelos de inteligencia artificial", y no proporciona un solo dato para ilustrar el ranking. de diferentes LLM:
"La conclusión más importante de este tipo de pruebas para usuarios y empresas es que puede probar cargas de trabajo exactas, y es fundamental comprender cómo LLM realiza lo que desea lograr. Muchas métricas anteriores basadas en LLM no son lo que son en realidad forma de vida de ser utilizado".
El mismo día que se publicó el informe de investigación mencionado anteriormente, Arthur Company también lanzó Arthur Bench, una herramienta de evaluación de modelos de IA de código abierto, que se puede utilizar para evaluar y comparar el rendimiento y la precisión de varios LLM Las empresas pueden agregar estándares personalizados para satisfacer sus propias necesidades comerciales El objetivo es ayudar a las empresas a tomar decisiones informadas al adoptar la IA.
Las "alucinaciones de IA" (alucinaciones) se refieren a los chatbots que fabrican información por completo y parecen arrojar hechos en respuesta a las preguntas del usuario.
Google hizo declaraciones falsas sobre el telescopio espacial James Webb en un video promocional de febrero para su chatbot generativo de inteligencia artificial Bard. En junio, ChatGPT citó un caso "falso" en una presentación ante un tribunal federal de Nueva York, y los abogados involucrados en la presentación podrían enfrentar sanciones.
Los investigadores de OpenAI informaron a principios de junio que habían encontrado una solución a la "ilusión de la IA", es decir, entrenar el modelo de IA para que se premie a sí mismo por cada paso correcto al deducir la respuesta, no solo esperar hasta que se dé la respuesta correcta. Se infiere la conclusión final Sólo se premia. Esta estrategia de "supervisión de procesos" alentará a los modelos de IA a razonar de una manera más "pensante" humana.
OpenAI reconoció en el informe:
"Incluso los modelos de IA de última generación son propensos a generar mentiras y exhiben una tendencia a fabricar hechos en momentos de incertidumbre. Estas alucinaciones son especialmente problemáticas en dominios que requieren un razonamiento de varios pasos, donde un solo error lógico puede ser suficiente para destruir una solución más grande".
Soros, el magnate de las inversiones, también publicó una columna en junio diciendo que la inteligencia artificial puede agravar más la policrisis que enfrenta el mundo en este momento. Una de las razones son las graves consecuencias de la ilusión de la IA:
"La IA destruye este modelo simple (notas de Wall Street: usar hechos para distinguir el bien del mal) porque no tiene absolutamente nada que ver con la realidad. La IA crea su propia realidad cuando la realidad artificial no se corresponde con el mundo real (esto sucede a menudo ), se crea la ilusión de la IA.
Esto me pone casi instintivamente en contra de la IA, y estoy completamente de acuerdo con los expertos en que la IA necesita ser regulada. Pero las regulaciones de IA deben aplicarse a nivel mundial, porque el incentivo para hacer trampa es demasiado grande y aquellos que evaden las regulaciones obtendrán una ventaja injusta. Desafortunadamente, la regulación global está fuera de discusión.
La inteligencia artificial se está desarrollando tan rápido que es imposible que la inteligencia humana común la entienda por completo. Nadie puede predecir adónde nos llevará. ... por eso estoy instintivamente en contra de la IA, pero no sé cómo detenerla.
Con una elección presidencial en los EE. UU. en 2024, y probablemente en el Reino Unido, la IA sin duda desempeñará un papel importante que no será más que peligroso.
La IA es muy buena para crear desinformación y falsificaciones profundas, y habrá muchos actores maliciosos. ¿Qué podemos hacer al respecto? no tengo una respuesta "
Previamente, Geoffrey Hinton, quien fue considerado como el "padrino de la inteligencia artificial" y dejó Google, criticó públicamente muchas veces los riesgos que trae la IA, e incluso puede destruir la civilización humana, y predijo que "la inteligencia artificial solo toma 5 para superarla". inteligencia humana en 20 años".
A las modelos de grandes idiomas más calientes les encantan las "tonterías". ¿Quién tiene el peor problema de "ilusión"?
Fuente: Noticias de Wall Street
Autor: Du Yu
Arthur AI, una plataforma de monitoreo de aprendizaje automático y puesta en marcha de inteligencia artificial con sede en Nueva York, publicó su último informe de investigación el jueves 17 de agosto, comparando OpenAI respaldado por Microsoft, Metaverse Meta, Anthropic respaldado por Google y generación respaldada por Nvidia. modelos de lenguaje grande (LLM) para "alucinar" (también conocido como una tontería) de compañías como AI unicorn Cohere.
Arthur AI actualiza regularmente el programa de investigación antes mencionado, denominado "Evaluación de prueba de IA generativa", para clasificar las fortalezas y debilidades de los líderes de la industria y otros modelos LLM de código abierto.
Las últimas pruebas seleccionaron GPT-3.5 de OpenAI (contiene 175 mil millones de parámetros) y GPT-4 (1,76 billones de parámetros), Claude-2 de Anthropic (parámetros desconocidos), Llama-2 de Meta (70 mil millones de parámetros) y Command (50 mil millones de parámetros) de Cohere, y haga preguntas desafiantes sobre estos modelos LLM superiores tanto cuantitativa como cualitativamente.
En la "prueba de alucinación del modelo de IA", los investigadores examinaron las respuestas dadas por diferentes modelos LLM con preguntas en categorías tan diversas como combinatoria, presidentes de EE. UU. y líderes políticos marroquíes. Se requieren múltiples pasos de razonamiento sobre la información".
El estudio encontró que, en general, GPT-4 de OpenAI tuvo el mejor desempeño de todos los modelos probados, produciendo menos problemas de "alucinaciones" que la versión anterior, GPT-3.5, como alucinaciones reducidas en la categoría de problemas matemáticos 33% al 50%.
Al mismo tiempo, Llama-2 de Meta se desempeñó en el medio de los cinco modelos probados, y Claude-2 de Anthropic ocupó el segundo lugar, solo superado por GPT-4. Y el modelo LLM de Cohere es el más capaz de "tonterías" y "dar respuestas incorrectas con mucha confianza".
Específicamente, en problemas matemáticos complejos, GPT-4 ocupa el primer lugar, seguido de Claude-2; en la pregunta del presidente de los EE. UU., la precisión de Claude-2 ocupa el primer lugar, y GPT-4 ocupa el primer lugar Segundo; en cuestiones políticas marroquíes, GPT -4 volvió al primer lugar, con Claude-2 y Llama 2 eligiendo casi por completo no responder tales preguntas.
Los investigadores también probaron hasta qué punto los modelos de IA "cubrían" sus respuestas con frases de advertencia irrelevantes para evitar riesgos, frases comunes que incluyen "Como modelo de IA, no puedo dar una opinión".
GPT-4 tuvo un aumento relativo del 50 % en las advertencias de cobertura sobre GPT-3.5, que según el informe "cuantifica la experiencia más frustrante que los usuarios han citado con GPT-4". Y el modelo de IA de Cohere no proporciona ninguna cobertura en los tres problemas anteriores.
Por el contrario, el Claude-2 de Anthropic fue el más confiable en términos de "autoconciencia", la capacidad de medir con precisión lo que sabe y lo que no sabe, y solo responde preguntas respaldadas por datos de entrenamiento.
Adam Wenchel, cofundador y director ejecutivo de Arthur AI, señaló que este es el primer informe de la industria que "comprende de manera integral la incidencia de las alucinaciones en los modelos de inteligencia artificial", y no proporciona un solo dato para ilustrar el ranking. de diferentes LLM:
El mismo día que se publicó el informe de investigación mencionado anteriormente, Arthur Company también lanzó Arthur Bench, una herramienta de evaluación de modelos de IA de código abierto, que se puede utilizar para evaluar y comparar el rendimiento y la precisión de varios LLM Las empresas pueden agregar estándares personalizados para satisfacer sus propias necesidades comerciales El objetivo es ayudar a las empresas a tomar decisiones informadas al adoptar la IA.
Las "alucinaciones de IA" (alucinaciones) se refieren a los chatbots que fabrican información por completo y parecen arrojar hechos en respuesta a las preguntas del usuario.
Google hizo declaraciones falsas sobre el telescopio espacial James Webb en un video promocional de febrero para su chatbot generativo de inteligencia artificial Bard. En junio, ChatGPT citó un caso "falso" en una presentación ante un tribunal federal de Nueva York, y los abogados involucrados en la presentación podrían enfrentar sanciones.
Los investigadores de OpenAI informaron a principios de junio que habían encontrado una solución a la "ilusión de la IA", es decir, entrenar el modelo de IA para que se premie a sí mismo por cada paso correcto al deducir la respuesta, no solo esperar hasta que se dé la respuesta correcta. Se infiere la conclusión final Sólo se premia. Esta estrategia de "supervisión de procesos" alentará a los modelos de IA a razonar de una manera más "pensante" humana.
OpenAI reconoció en el informe:
Soros, el magnate de las inversiones, también publicó una columna en junio diciendo que la inteligencia artificial puede agravar más la policrisis que enfrenta el mundo en este momento. Una de las razones son las graves consecuencias de la ilusión de la IA:
Previamente, Geoffrey Hinton, quien fue considerado como el "padrino de la inteligencia artificial" y dejó Google, criticó públicamente muchas veces los riesgos que trae la IA, e incluso puede destruir la civilización humana, y predijo que "la inteligencia artificial solo toma 5 para superarla". inteligencia humana en 20 años".