🔥 Gate.io #EIGEN# Лимитированная акция по листингу в полном разгаре, делимся $20,000 наградами!
депозит #EIGEN# на Split $13,000
Торговля #EIGEN# на Split Extra $4,000
Эксклюзивное предложение для новых пользователей: разделите призовой фонд в размере $3,000
🚀 Присоединяйтесь сейчас: https://www.gate.io/questionnaire/5209
Деталь: https://www.gate.io/announcements/article/39599
Большой ход робота AGI от Google: команда из 54 человек сдерживалась 7 месяцев, сильные обобщения и сильные рассуждения, новые результаты после слияния DeepMind и Google Brain
Первоисточник: Кубит
Взрывная большая модель меняет направление исследований роботов Google DeepMind.
Одно из последних достижений — проект робота РТ-2, на создание которого ушло 7 месяцев, и он стал популярным в Интернете:
Насколько это эффективно?
Просто отдайте приказ на человеческом языке, и маленький парень перед ним сможет взмахнуть своей роботизированной рукой, подумать и выполнить «задание хозяина».
Например, дать воды поп-певице Тейлор Свифт или узнать логотип звездной команды:
Он может даже активно думать и позволять себе «собирать вымерших животных», а также точно выбирать динозавров из трех пластиковых игрушек львов, китов и динозавров.
По словам пользователей сети, не стоит недооценивать эту способность, это закономерный скачок от «вымерших животных» к «пластиковым динозаврам».
Что еще более «пугает», так это то, что он может легко решить многоступенчатую логическую задачу «выбора напитка для уставшего человека», которую нужно сочетать с цепочкой размышлений — как только заказ будет услышан. , ручонка пойдет прямо к Red Bull, Только не умничай.
Некоторые пользователи сети посетовали после прочтения:
Понятно, что достижение Google DeepMind было создано совместно 54 исследователями, и потребовалось 7 месяцев до и после, прежде чем оно, наконец, стало «таким простым», которое мы видели.
Как сообщает New York Times, Винсент Ванхоук, директор по робототехнике в Google DeepMind, считает, что большие модели полностью изменили направление исследований их отдела:
Итак, каких эффектов может достичь РТ-2 и о чем именно это исследование?
Подключите мультимодальную большую модель к манипулятору
Проект робота под названием RT-2 (Robotic Transformer 2) представляет собой «эволюционную версию» RT-1, выпущенного в конце прошлого года.
По сравнению с другими исследованиями роботов основное преимущество RT-2 заключается в том, что он может не только понимать «человеческие слова», но и рассуждать о «человеческих словах» и преобразовывать их в инструкции, понятные роботам, чтобы выполнять задачи поэтапно. .
В частности, он имеет три основные возможности — понимание символов (понимание символов), рассуждение (рассуждение) и человеческое распознавание (человеческое распознавание).
Первая способность - это «символическое понимание», которое может напрямую расширить знания о предварительном обучении большой модели на данные, которые робот никогда раньше не видел. Например, хотя в базе данных робота нет «Red Bull», он может понять и уловить внешний вид «Red Bull», зная большую модель, и обращаться с объектами.
Вторая способность — «рассуждения», которая также является основным преимуществом RT-2 и требует от робота овладения тремя основными навыками: математикой, визуальным мышлением и многоязычным пониманием.
Навык 1, включающий команду математического логического рассуждения «сложи банан в сумме 2+1»:
Второй навык, Визуальное мышление, например, «Положи клубнику в правильную миску»:
Навык 3, многоязычное понимание, может выполнять инструкции даже без английского, например, дать ему команду на испанском «выбрать наиболее характерный из кучи предметов»:
Третья способность — это человеческое распознавание, которое точно распознает и понимает человеческое поведение.Пример «передачи воды Тейлору Свифту», показанный в начале, является одной из демонстраций способности.
Итак, как реализуются эти три способности?
Проще говоря, это объединение «рассуждающих», «распознающих» и «математических» возможностей визуально-текстовой мультимодальной большой модели (ВЛМ) с операционными возможностями роботов.
Для этого исследователи напрямую добавили режим под названием «режим действия робота» в большую модель визуального текста (VLM), тем самым превратив ее в большую модель визуального текста (VLA).
Впоследствии исходные очень конкретные данные о действиях робота преобразуются в текстовый токен.
Например, такие данные, как градус поворота и координата точки, которую нужно разместить, преобразуются в текст «поместить в определенную позицию».
Таким образом, данные робота также могут быть использованы в наборе данных визуального языка для обучения.В то же время в процессе рассуждений исходные текстовые инструкции будут повторно преобразованы в данные робота для реализации ряда операций, таких как как управление роботом.
Правильно, это так просто и грубо (ручная собачья голова)
В этом исследовании команда в основном «модернизировала» на основе ряда базовых крупномасштабных моделей Google, включая 5 миллиардов и 55 миллиардов PaLI-X, 3 миллиарда PaLI и 12 миллиардов PaLM-E.
Чтобы улучшить возможности самой большой модели, исследователи также приложили немало усилий, используя недавно популярную цепочку мышления, векторную базу данных и безградиентную архитектуру.
Эта серия операций также дает РТ-2 много новых преимуществ по сравнению с РТ-1, выпущенным в прошлом году.
Давайте посмотрим на конкретные экспериментальные результаты.
До трех раз выше производительности RT-1
РТ-2 использует для обучения данные модели робота предыдущего поколения РТ-1 (то есть данные не изменились, но метод другой).
Данные собирались в течение 17 месяцев с использованием 13 роботов на кухне, установленной в офисе.
В реальном тесте (всего 6000 раз) автор дал RT-2 множество ранее невиданных объектов, требуя от RT-2 выполнения семантического понимания помимо данных точной настройки для выполнения задачи.
Все результаты сделаны довольно хорошо:
От простого распознавания букв, национальных флагов и символов до распознавания наземных животных от кукол, выбора одной из них с другим цветом и даже сложных команд, таких как собирать закуски, которые вот-вот упадут со стола.
С точки зрения возможностей трех подразделений: понимания символов, рассуждений и распознавания человека, два варианта RT-2 намного лучше, чем RT-1 и другой метод визуальной предварительной подготовки VC-1, с производительностью до 3 раз. .
Как упоминалось ранее, оба варианта обучаются на PaLM-E с 12 миллиардами параметров и PaLI-X с 55 миллиардами параметров соответственно.
С точки зрения конкретной оценки способности к обобщению, посредством многокатегорийных тестов с несколькими базовыми моделями, наконец, было обнаружено, что производительность RT-2 улучшилась примерно в 2 раза.
(К сожалению, мы не видели его по сравнению с последними роботизированными методами, основанными на LLM, другими командами)
Чтобы лучше понять, как разные настройки РТ-2 влияют на результаты обобщения, автор разработал две категории оценок:
Во-первых, с точки зрения размера модели только вариант RT-2 PaLI-X использует 5 миллиардов параметров и 55 миллиардов параметров для обучения;
Второй — это метод обучения, который использует метод обучения модели с нуля по сравнению с тонкой настройкой и совместной тонкой настройкой.
Окончательные результаты показывают, что важность предварительно обученных весов VLM и способность модели к обобщению имеют тенденцию к увеличению с размером модели.
Кроме того, авторы также оценивают RT-2 в тесте таблицы языков с открытым исходным кодом, и результаты показывают, что он достигает результатов SOTA в смоделированном тесте (90% против 77% ранее).
Наконец, поскольку вариант PaLM-E RT-2 представляет собой модель действия языка-зрения, которая может действовать как LLM, VLM и контроллер робота в одной нейронной сети, RT-2 также может выполнять контролируемые рассуждения в виде цепочки мыслей.
Среди пяти логических задач, показанных на рисунке ниже (особенно последняя очень интересна: выбрать предмет, который может заменить молоток), она выведет шаги на естественном языке после получения команды, а затем выдаст жетон конкретного действия.
Наконец, можно сказать, что эта последняя модель RT-2 может не только лучше применяться к различным сценам, которые машина никогда раньше не видела, но и обладает лучшей способностью к обобщению; в то же время, благодаря лучшему с благословением большой модели, он также овладел некоторыми новыми трудными способностями, такими как рассуждение.
Еще кое-что
Акцент Google на исследованиях робототехники на больших моделях не кажется «беспочвенным».
Буквально за последние два дня очень популярной стала статья «Использование больших моделей для приобретения дополнительных навыков работы с роботами», написанная в соавторстве с Колумбийским университетом:
В этой статье предлагается новая структура, которая не только позволяет роботу хорошо адаптироваться к большой модели, но также сохраняет основные возможности работы и управления исходного робота:
В отличие от РТ-2, этот проект был с открытым исходным кодом:
Это правда, что большая модель использовалась для обновления всего отдела роботов.
Напоминая недавние достижения команды Ли Фейфея в области воплощения интеллекта, можно сказать, что использование больших моделей для управления роботами стало исследовательской тенденцией, и мы наблюдаем волну очень многообещающего прогресса.
Каковы ваши ожидания от этого направления исследований?
адрес проекта:
Ссылка:
[1]
[2]
[3]
[4]