📢 Gate.io Пост Тег Вызов: #MyFavoriteToken# Опубликуйте и ВЫИГРАЙТЕ $100!
Есть любимый токен, о котором вы волнуетесь? Будь то технические инновации, поддержка сообщества, или рыночный потенциал, присоединяйтесь к событию #MyFavoriteToken# и поделитесь с нами своими идеями!
💡 Как принять участие:
Все самые горячие модели большого языка любят «чепуху» У кого самая серьезная проблема с «иллюзиями»?
Источник: Новости Уолл-Стрит.
Автор: Ду Ю
Arthur AI, нью-йоркский стартап искусственного интеллекта и платформа для мониторинга машинного обучения, в четверг, 17 августа, выпустила свой последний исследовательский отчет, в котором сравниваются OpenAI, поддерживаемый Microsoft, Metaverse Meta, Anthropic, поддерживаемый Google, и поколение, поддерживаемое Nvidia. большие языковые модели (LLM) для «галлюцинаций» (иначе говоря, нонсенс) от таких компаний, как AI unicorn Cohere.
Артур AI регулярно обновляет вышеупомянутую исследовательскую программу, получившую название «Generative AI Test Evaluation», чтобы оценить сильные и слабые стороны лидеров отрасли и других моделей LLM с открытым исходным кодом.
В последних тестах были выбраны GPT-3.5 из OpenAI (содержит 175 миллиардов параметров) и GPT-4 (1,76 триллиона параметров), Claude-2 из Anthropic (параметры неизвестны), Llama-2 из Meta (70 миллиардов параметров) и Command (50 миллиардов параметров). миллиардов параметров) от Cohere и задавать сложные вопросы об этих лучших моделях LLM как в количественном, так и в качественном отношении.
В «Тесте галлюцинации модели ИИ» исследователи изучили ответы, данные различными моделями LLM, на вопросы в таких разных категориях, как комбинаторика, президенты США и марокканские политические лидеры. Требуется несколько этапов рассуждения об информации».
Исследование показало, что в целом OpenAI GPT-4 работала лучше всех протестированных моделей, вызывая меньше «галлюцинаций», чем предыдущая версия, GPT-3.5, например, уменьшение количества галлюцинаций в категории математических задач на 33%. до 50%.
При этом Llama-2 от Meta показала себя в середине пяти протестированных моделей, а Claude-2 от Anthropic заняла второе место, уступив лишь GPT-4. А модель LLM Коэра наиболее способна «вздорить» и «очень уверенно давать неверные ответы».
В частности, в сложных математических задачах ОШП-4 занимает первое место, за ним следует Клод-2; в вопросе о президенте США точность Клода-2 занимает первое место, а ОШП-4 занимает первое второе место; по марокканским политическим вопросам ОШП -4 вернулся на первое место, а Клод-2 и Лама 2 почти полностью отказались отвечать на такие вопросы.
Исследователи также проверили, в какой степени модели ИИ будут «застраховывать» свои ответы неуместными предупредительными фразами, чтобы избежать риска, общими фразами, включая «Как модель ИИ, я не могу высказать свое мнение».
GPT-4 имеет относительное увеличение количества предупреждений о хеджировании на 50% по сравнению с GPT-3.5, что, как говорится в отчете, «количественно отражает более разочаровывающий опыт пользователей с GPT-4». И модель ИИ Cohere вообще не обеспечивает защиты от трех вышеперечисленных проблем.
Напротив, Claude-2 от Anthropic был самым надежным с точки зрения «самосознания», способности точно измерять, что он знает и чего не знает, и отвечать только на вопросы, подкрепленные данными обучения.
Адам Венчел, соучредитель и генеральный директор Arthur AI, отметил, что это первый отчет в отрасли, который «всесторонне понимает частоту возникновения галлюцинаций в моделях искусственного интеллекта», и он не просто предоставляет единые данные для иллюстрации рейтинга. различных LLM:
В тот же день, когда был опубликован вышеупомянутый исследовательский отчет, компания Arthur Company также запустила Arthur Bench, инструмент оценки модели искусственного интеллекта с открытым исходным кодом, который можно использовать для оценки и сравнения производительности и точности различных LLM.Предприятия могут добавлять индивидуальные стандарты. для удовлетворения собственных потребностей бизнеса. Цель состоит в том, чтобы помочь предприятиям принимать обоснованные решения при внедрении ИИ.
«Галлюцинации ИИ» (галлюцинации) относятся к чат-ботам, полностью фабрикующим информацию и, по-видимому, изливающим факты в ответ на оперативные вопросы пользователя.
Google сделал ложные заявления о космическом телескопе Джеймса Уэбба в февральском рекламном ролике для своего генеративного чат-бота с искусственным интеллектом Bard. В июне ChatGPT сослался на «фиктивное» дело при подаче иска в федеральный суд Нью-Йорка, и юристы, участвовавшие в подаче иска, могут столкнуться с санкциями.
Исследователи OpenAI сообщили в начале июня, что они нашли решение «иллюзии ИИ», то есть обучение модели ИИ самовознаграждению за каждый правильный шаг в выводе ответа, а не просто ожидание правильного ответа. окончательный вывод выводится Только вознаграждается. Эта стратегия «надзора за процессом» будет побуждать модели ИИ рассуждать более «человеческим» образом.
OpenAI признал в отчете:
Сорос, инвестиционный магнат, также опубликовал в июне колонку, в которой говорилось, что искусственный интеллект может больше всего усугубить поликризис, с которым сталкивается мир в данный момент.Одна из причин — серьезные последствия иллюзии ИИ:
Ранее Джеффри Хинтон, считавшийся «крестным отцом искусственного интеллекта» и покинувший Google, много раз публично критиковал риски, связанные с ИИ и даже способные уничтожить человеческую цивилизацию, и предсказывал, что «искусственному интеллекту требуется всего 5 лет, чтобы он мог превзойти человеческого интеллекта через 20 лет».