Большой ход робота AGI от Google: команда из 54 человек сдерживалась 7 месяцев, сильные обобщения и сильные рассуждения, новые результаты после слияния DeepMind и Google Brain

Первоисточник: Кубит

Взрывная большая модель меняет направление исследований роботов Google DeepMind.

Одно из последних достижений — проект робота РТ-2, на создание которого ушло 7 месяцев, и он стал популярным в Интернете:

Насколько это эффективно?

Просто отдайте приказ на человеческом языке, и маленький парень перед ним сможет взмахнуть своей роботизированной рукой, подумать и выполнить «задание хозяина».

Например, дать воды поп-певице Тейлор Свифт или узнать логотип звездной команды:

Он может даже активно думать и позволять себе «собирать вымерших животных», а также точно выбирать динозавров из трех пластиковых игрушек львов, китов и динозавров.

По словам пользователей сети, не стоит недооценивать эту способность, это закономерный скачок от «вымерших животных» к «пластиковым динозаврам».

Что еще более «пугает», так это то, что он может легко решить многоступенчатую логическую задачу «выбора напитка для уставшего человека», которую нужно сочетать с цепочкой размышлений — как только заказ будет услышан. , ручонка пойдет прямо к Red Bull, Только не умничай.

Некоторые пользователи сети посетовали после прочтения:

Не могу дождаться, перенесемся к мыть посуду для людей (собачья голова вручную)

Понятно, что достижение Google DeepMind было создано совместно 54 исследователями, и потребовалось 7 месяцев до и после, прежде чем оно, наконец, стало «таким простым», которое мы видели.

Как сообщает New York Times, Винсент Ванхоук, директор по робототехнике в Google DeepMind, считает, что большие модели полностью изменили направление исследований их отдела:

Из-за этого (большого изменения модели) нам пришлось переосмыслить весь исследовательский проект. Многие вещи, которые мы изучали раньше, полностью провалились.

Итак, каких эффектов может достичь РТ-2 и о чем именно это исследование?

Подключите мультимодальную большую модель к манипулятору

Проект робота под названием RT-2 (Robotic Transformer 2) представляет собой «эволюционную версию» RT-1, выпущенного в конце прошлого года.

По сравнению с другими исследованиями роботов основное преимущество RT-2 заключается в том, что он может не только понимать «человеческие слова», но и рассуждать о «человеческих словах» и преобразовывать их в инструкции, понятные роботам, чтобы выполнять задачи поэтапно. .

В частности, он имеет три основные возможности — понимание символов (понимание символов), рассуждение (рассуждение) и человеческое распознавание (человеческое распознавание).

Первая способность - это «символическое понимание», которое может напрямую расширить знания о предварительном обучении большой модели на данные, которые робот никогда раньше не видел. Например, хотя в базе данных робота нет «Red Bull», он может понять и уловить внешний вид «Red Bull», зная большую модель, и обращаться с объектами.

Вторая способность — «рассуждения», которая также является основным преимуществом RT-2 и требует от робота овладения тремя основными навыками: математикой, визуальным мышлением и многоязычным пониманием.

Навык 1, включающий команду математического логического рассуждения «сложи банан в сумме 2+1»:

Второй навык, Визуальное мышление, например, «Положи клубнику в правильную миску»:

Навык 3, многоязычное понимание, может выполнять инструкции даже без английского, например, дать ему команду на испанском «выбрать наиболее характерный из кучи предметов»:

Третья способность — это человеческое распознавание, которое точно распознает и понимает человеческое поведение.Пример «передачи воды Тейлору Свифту», показанный в начале, является одной из демонстраций способности.

Итак, как реализуются эти три способности?

Проще говоря, это объединение «рассуждающих», «распознающих» и «математических» возможностей визуально-текстовой мультимодальной большой модели (ВЛМ) с операционными возможностями роботов.

Для этого исследователи напрямую добавили режим под названием «режим действия робота» в большую модель визуального текста (VLM), тем самым превратив ее в большую модель визуального текста (VLA).

Впоследствии исходные очень конкретные данные о действиях робота преобразуются в текстовый токен.

Например, такие данные, как градус поворота и координата точки, которую нужно разместить, преобразуются в текст «поместить в определенную позицию».

Таким образом, данные робота также могут быть использованы в наборе данных визуального языка для обучения.В то же время в процессе рассуждений исходные текстовые инструкции будут повторно преобразованы в данные робота для реализации ряда операций, таких как как управление роботом.

Правильно, это так просто и грубо (ручная собачья голова)

В этом исследовании команда в основном «модернизировала» на основе ряда базовых крупномасштабных моделей Google, включая 5 миллиардов и 55 миллиардов PaLI-X, 3 миллиарда PaLI и 12 миллиардов PaLM-E.

Чтобы улучшить возможности самой большой модели, исследователи также приложили немало усилий, используя недавно популярную цепочку мышления, векторную базу данных и безградиентную архитектуру.

Эта серия операций также дает РТ-2 много новых преимуществ по сравнению с РТ-1, выпущенным в прошлом году.

Давайте посмотрим на конкретные экспериментальные результаты.

До трех раз выше производительности RT-1

РТ-2 использует для обучения данные модели робота предыдущего поколения РТ-1 (то есть данные не изменились, но метод другой).

Данные собирались в течение 17 месяцев с использованием 13 роботов на кухне, установленной в офисе.

В реальном тесте (всего 6000 раз) автор дал RT-2 множество ранее невиданных объектов, требуя от RT-2 выполнения семантического понимания помимо данных точной настройки для выполнения задачи.

Все результаты сделаны довольно хорошо:

От простого распознавания букв, национальных флагов и символов до распознавания наземных животных от кукол, выбора одной из них с другим цветом и даже сложных команд, таких как собирать закуски, которые вот-вот упадут со стола.

С точки зрения возможностей трех подразделений: понимания символов, рассуждений и распознавания человека, два варианта RT-2 намного лучше, чем RT-1 и другой метод визуальной предварительной подготовки VC-1, с производительностью до 3 раз. .

Как упоминалось ранее, оба варианта обучаются на PaLM-E с 12 миллиардами параметров и PaLI-X с 55 миллиардами параметров соответственно.

С точки зрения конкретной оценки способности к обобщению, посредством многокатегорийных тестов с несколькими базовыми моделями, наконец, было обнаружено, что производительность RT-2 улучшилась примерно в 2 раза.

(К сожалению, мы не видели его по сравнению с последними роботизированными методами, основанными на LLM, другими командами)

Чтобы лучше понять, как разные настройки РТ-2 влияют на результаты обобщения, автор разработал две категории оценок:

Во-первых, с точки зрения размера модели только вариант RT-2 PaLI-X использует 5 миллиардов параметров и 55 миллиардов параметров для обучения;

Второй — это метод обучения, который использует метод обучения модели с нуля по сравнению с тонкой настройкой и совместной тонкой настройкой.

Окончательные результаты показывают, что важность предварительно обученных весов VLM и способность модели к обобщению имеют тенденцию к увеличению с размером модели.

Кроме того, авторы также оценивают RT-2 в тесте таблицы языков с открытым исходным кодом, и результаты показывают, что он достигает результатов SOTA в смоделированном тесте (90% против 77% ранее).

Наконец, поскольку вариант PaLM-E RT-2 представляет собой модель действия языка-зрения, которая может действовать как LLM, VLM и контроллер робота в одной нейронной сети, RT-2 также может выполнять контролируемые рассуждения в виде цепочки мыслей.

Среди пяти логических задач, показанных на рисунке ниже (особенно последняя очень интересна: выбрать предмет, который может заменить молоток), она выведет шаги на естественном языке после получения команды, а затем выдаст жетон конкретного действия.

Наконец, можно сказать, что эта последняя модель RT-2 может не только лучше применяться к различным сценам, которые машина никогда раньше не видела, но и обладает лучшей способностью к обобщению; в то же время, благодаря лучшему с благословением большой модели, он также овладел некоторыми новыми трудными способностями, такими как рассуждение.

Еще кое-что

Акцент Google на исследованиях робототехники на больших моделях не кажется «беспочвенным».

Буквально за последние два дня очень популярной стала статья «Использование больших моделей для приобретения дополнительных навыков работы с роботами», написанная в соавторстве с Колумбийским университетом:

В этой статье предлагается новая структура, которая не только позволяет роботу хорошо адаптироваться к большой модели, но также сохраняет основные возможности работы и управления исходного робота:

В отличие от РТ-2, этот проект был с открытым исходным кодом:

Это правда, что большая модель использовалась для обновления всего отдела роботов.

Напоминая недавние достижения команды Ли Фейфея в области воплощения интеллекта, можно сказать, что использование больших моделей для управления роботами стало исследовательской тенденцией, и мы наблюдаем волну очень многообещающего прогресса.

Каковы ваши ожидания от этого направления исследований?

адрес проекта:

Ссылка:

[1]

[2]

[3]

[4]

Посмотреть Оригинал
  • Награда
  • комментарий
  • Поделиться
комментарий
Нет комментариев