Все самые горячие модели большого языка любят «чепуху» У кого самая серьезная проблема с «иллюзиями»?

Question

Источник: Новости Уолл-Стрит.Автор: Ду ЮArthur AI, нью-йоркский стартап искусственного интеллекта и платформа для мониторинга машинного обучения, в четверг, 17 августа, выпустила свой последний исследовательский отчет, в котором сравниваются OpenAI, поддерживаемый Microsoft, Metaverse Meta, Anthropic, поддерживаемый Google, и поколение, поддерживаемое Nvidia. большие языковые модели (LLM) для «галлюцинаций» (иначе говоря, нонсенс) от таких компаний, как AI unicorn Cohere.Артур AI регулярно обновляет вышеупомянутую исследовательскую программу, получившую название «Generative AI Test Evaluation», чтобы оценить сильные и слабые стороны лидеров отрасли и других моделей LLM с открытым исходным кодом.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-e8960ee839-dd1a6f-1c6801) В последних тестах были выбраны GPT-3.5 из OpenAI (содержит 175 миллиардов параметров) и GPT-4 (1,76 триллиона параметров), Claude-2 из Anthropic (параметры неизвестны), Llama-2 из Meta (70 миллиардов параметров) и Command (50 миллиардов параметров). миллиардов параметров) от Cohere и задавать сложные вопросы об этих лучших моделях LLM как в количественном, так и в качественном отношении.В «Тесте галлюцинации модели ИИ» исследователи изучили ответы, данные различными моделями LLM, на вопросы в таких разных категориях, как комбинаторика, президенты США и марокканские политические лидеры. Требуется несколько этапов рассуждения об информации».**Исследование показало, что в целом OpenAI GPT-4 работала лучше всех протестированных моделей**, вызывая меньше «галлюцинаций», чем предыдущая версия, GPT-3.5, например, уменьшение количества галлюцинаций в категории математических задач на 33%. до 50%.При этом Llama-2 от Meta показала себя в середине пяти протестированных моделей, а Claude-2 от Anthropic заняла второе место, уступив лишь GPT-4. А модель LLM Коэра наиболее способна «вздорить» и «очень уверенно давать неверные ответы».![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-fcdd9d4271-dd1a6f-1c6801) В частности, в сложных математических задачах ОШП-4 занимает первое место, за ним следует Клод-2; в вопросе о президенте США точность Клода-2 занимает первое место, а ОШП-4 занимает первое второе место; по марокканским политическим вопросам ОШП -4 вернулся на первое место, а Клод-2 и Лама 2 почти полностью отказались отвечать на такие вопросы.Исследователи также проверили, в какой степени модели ИИ будут «застраховывать» свои ответы неуместными предупредительными фразами, чтобы избежать риска, общими фразами, включая «Как модель ИИ, я не могу высказать свое мнение».GPT-4 имеет относительное увеличение количества предупреждений о хеджировании на 50% по сравнению с GPT-3.5, что, как говорится в отчете, «количественно отражает более разочаровывающий опыт пользователей с GPT-4». И модель ИИ Cohere вообще не обеспечивает защиты от трех вышеперечисленных проблем.Напротив, Claude-2 от Anthropic был самым надежным с точки зрения «самосознания», способности точно измерять, что он знает и чего не знает, и отвечать только на вопросы, подкрепленные данными обучения.![](https://img-cdn.gateio.im/resized-social/moments-bab2147faf-8c9b0c9094-dd1a6f-1c6801) Адам Венчел, соучредитель и генеральный директор Arthur AI, отметил, что это первый отчет в отрасли, который «всесторонне понимает частоту возникновения галлюцинаций в моделях искусственного интеллекта», и он не просто предоставляет единые данные для иллюстрации рейтинга. различных LLM:> «Самый важный вывод из этого вида тестирования для пользователей и бизнеса заключается в том, что вы можете тестировать конкретные рабочие нагрузки, и очень важно понимать, как LLM выполняет то, чего вы хотите достичь. жизненный способ использования».В тот же день, когда был опубликован вышеупомянутый исследовательский отчет, компания Arthur Company также запустила Arthur Bench, инструмент оценки модели искусственного интеллекта с открытым исходным кодом, который можно использовать для оценки и сравнения производительности и точности различных LLM.Предприятия могут добавлять индивидуальные стандарты. для удовлетворения собственных потребностей бизнеса. Цель состоит в том, чтобы помочь предприятиям принимать обоснованные решения при внедрении ИИ.«Галлюцинации ИИ» (галлюцинации) относятся к чат-ботам, полностью фабрикующим информацию и, по-видимому, изливающим факты в ответ на оперативные вопросы пользователя.Google сделал ложные заявления о космическом телескопе Джеймса Уэбба в февральском рекламном ролике для своего генеративного чат-бота с искусственным интеллектом Bard. В июне ChatGPT сослался на «фиктивное» дело при подаче иска в федеральный суд Нью-Йорка, и юристы, участвовавшие в подаче иска, могут столкнуться с санкциями.Исследователи OpenAI сообщили в начале июня, что они нашли решение «иллюзии ИИ», то есть обучение модели ИИ самовознаграждению за каждый правильный шаг в выводе ответа, а не просто ожидание правильного ответа. окончательный вывод выводится Только вознаграждается. Эта стратегия «надзора за процессом» будет побуждать модели ИИ рассуждать более «человеческим» образом.OpenAI признал в отчете:> «Даже самые современные модели ИИ склонны к генерации лжи, и они демонстрируют тенденцию к фабрикации фактов в моменты неопределенности. Эти галлюцинации особенно проблематичны в областях, требующих многошагового рассуждения, где одна может быть достаточно, чтобы разрушить более Большое решение».Сорос, инвестиционный магнат, также опубликовал в июне колонку, в которой говорилось, что искусственный интеллект может больше всего усугубить поликризис, с которым сталкивается мир в данный момент.Одна из причин — серьезные последствия иллюзии ИИ:> «ИИ разрушает эту простую модель (примечание Уолл-стрит: использование фактов, чтобы отличить правильное от неправильного), потому что он не имеет абсолютно ничего общего с реальностью. ИИ создает свою собственную реальность, когда искусственная реальность не соответствует реальному миру (это часто происходит ), создается иллюзия ИИ.> Это делает меня почти инстинктивно против ИИ, и я полностью согласен с экспертами в том, что ИИ нужно регулировать. Но правила ИИ должны применяться во всем мире, потому что стимул к мошенничеству слишком велик, и те, кто уклоняется от правил, получат несправедливое преимущество. К сожалению, о глобальном регулировании не может быть и речи.> Искусственный интеллект развивается так быстро, что обычный человеческий разум не в состоянии полностью его понять. Никто не может предсказать, куда это нас приведет. ...вот почему я инстинктивно против ИИ, но я не знаю, как его остановить.> С президентскими выборами в США в 2024 году и, вероятно, в Великобритании ИИ, несомненно, сыграет важную роль, которая будет не более чем опасной.> ИИ очень хорош в создании дезинформации и дипфейков, и будет много злоумышленников. Что мы можем с этим поделать? У меня нет ответа. "Ранее Джеффри Хинтон, считавшийся «крестным отцом искусственного интеллекта» и покинувший Google, много раз публично критиковал риски, связанные с ИИ и даже способные уничтожить человеческую цивилизацию, и предсказывал, что «искусственному интеллекту требуется всего 5 лет, чтобы он мог превзойти человеческого интеллекта через 20 лет».