Робот ChatGPT тут: велика модель потрапляє в реальний світ, важкий прорив DeepMind

Ми знаємо, що після освоєння мови та зображень в Інтернеті велика модель з часом увійде в реальний світ, а «втілений інтелект» має стати наступним напрямком розвитку.

Якщо підключити велику модель до робота, використовуючи просту природну мову замість складних інструкцій для формування конкретного плану дій, без додаткових даних і навчання, це бачення виглядає добре, але здається трохи далеким. Зрештою, сфера робототехніки, як відомо, складна.

Однак ШІ розвивається швидше, ніж ми думали.

Цієї п’ятниці Google DeepMind оголосив про запуск RT-2: першої в світі моделі Vision-Language-Action (VLA) для керування роботами.

Тепер, коли складні інструкції більше не використовуються, роботом можна керувати безпосередньо, як ChatGPT.

Наскільки розумний RT-2? Дослідники DeepMind показали його за допомогою роботизованої руки, сказали штучному інтелекту вибрати «вимерлих тварин», рука витягнулася, кігті розкрилися і впали, і він схопив ляльку динозавра.

До цього роботи не могли достовірно зрозуміти об’єкти, яких вони ніколи не бачили, а тим більше не могли міркувати про такі речі, як зв’язок «вимерлих тварин» із «пластиковими ляльками динозаврів».

Скажіть роботу дати Тейлор Свіфт банку кока-коли:

Видно, що цей робот є справжнім фанатом, що є гарною новиною для людей.

Розробка великих мовних моделей, таких як ChatGPT, починає революцію в області роботів.Google встановив найдосконаліші мовні моделі на роботів, щоб вони нарешті отримали штучний мозок.

У статті, нещодавно представленій DeepMind, дослідники заявили, що модель RT-2 навчається на основі мережевих даних і даних роботів, використовуючи прогрес досліджень великомасштабних мовних моделей, таких як Bard, і поєднуючи їх із даними роботів. Нова модель також може розуміти інструкції мовами, відмінними від англійської.

Керівники Google кажуть, що RT-2 – це суттєвий стрибок у створенні та програмуванні роботів. «Через цю зміну нам довелося переглянути весь наш дослідницький план», — каже Вінсент Ванхоуке, директор відділу робототехніки DeepMind Google. «Багато речей, які я робив раніше, абсолютно марні».

Як реалізовано RT-2?

RT-2 від DeepMind розібраний і читається як Robotic Transformer - трансформерна модель робота.

Розуміти людську мову та демонструвати живучість, як у фантастичних фільмах, роботам непросте завдання. Порівняно з віртуальним середовищем реальний фізичний світ складний і невпорядкований, і роботам зазвичай потрібні складні інструкції, щоб виконувати прості речі за людей. Натомість люди інстинктивно знають, що робити.

Раніше навчання робота займало багато часу, і дослідникам доводилося створювати рішення для різних завдань окремо, але завдяки потужності RT-2 робот може самостійно аналізувати більше інформації та робити висновки, що робити далі.

RT-2 базується на моделі Vision-Language Model (VLM) і створює нову концепцію: модель Vision-Language-Action (VLA), яка може вивчати мережеві дані та дані робота та об’єднувати ці знання Перекладати в загальні інструкції, які робот може КОНТРОЛЬ. Модель навіть могла використовувати ланцюжки думок, наприклад, який напій буде найкращим для втомленої людини (енергетичні напої).

Архітектура RT-2 і процес навчання

Фактично, ще минулого року Google запустив версію робота RT-1. Потрібна лише одна попередньо навчена модель, і RT-1 може генерувати інструкції з різних сенсорних вхідних даних (таких як зір, текст тощо). ) для виконання кількох завдань Вид завдання.

Будучи попередньо навченою моделлю, вона, природно, потребує багато даних для успішної побудови самоконтрольованого навчання. RT-2 базується на RT-1 і використовує демонстраційні дані RT-1, зібрані 13 роботами в офісі чи на кухні протягом 17 місяців.

DeepMind створив модель VLA

Раніше ми згадували, що RT-2 побудовано на основі VLM, де моделі VLM навчені на даних веб-масштабу та можуть використовуватися для виконання таких завдань, як візуальні відповіді на запитання, підписи до зображень або розпізнавання об’єктів. Крім того, дослідники також внесли адаптивні налаштування до двох раніше запропонованих моделей VLM PaLI-X (модель Pathways Language and Image) і PaLM-E (Pathways Language model Embodied), які є основою RT-2, і ці моделі The Vision -Версії Language-Movement називаються RT-2-PaLI-X і RT-2-PaLM-E.

Для того, щоб зорово-мовна модель могла керувати роботом, все ще необхідно контролювати рух. У дослідженні застосовувався дуже простий підхід: вони представляли дії роботів іншою мовою, текстовими маркерами, і навчали їх за допомогою набору даних зорової мови веб-масштабу.

Кодування руху для робота базується на методі дискретизації, запропонованому Броханом та іншими для моделі RT-1.

Як показано на малюнку нижче, це дослідження представляє дії робота у вигляді текстових рядків, які можуть бути послідовністю номерів токенів дій робота, наприклад «1 128 91 241 5 101 127 217».

Рядок починається з прапорця, який вказує, чи робот продовжує або завершує поточний епізод, а потім робот змінює положення та обертання кінцевого ефектора та команд, як-от захват робота, як зазначено.

Оскільки дії представлені у вигляді текстових рядків, роботу так само легко виконати команду дії, як і команду рядка. За допомогою цього представлення ми можемо безпосередньо налаштувати існуючі моделі мови бачення та перетворити їх на моделі мови бачення-дій.

Під час логічного висновку текстові маркери розкладаються на дії робота для досягнення замкнутого циклу керування.

Експериментальний

Дослідники провели серію якісних і кількісних експериментів на моделі RT-2.

На малюнку нижче показано ефективність RT-2 щодо семантичного розуміння та основних міркувань. Наприклад, для виконання завдання «покласти полуницю в правильну миску» RT-2 не лише має розуміти представлення полуниці та миски, але також має міркувати в контексті сцени, щоб знати, що полуницю слід класти з схожі фрукти Разом. Для завдання підняти сумку, яка ось-ось впаде зі столу, RT-2 має зрозуміти фізичні властивості сумки, щоб усунути неоднозначність між двома сумками та ідентифікувати об’єкти в нестабільному положенні.

Слід зазначити, що всі взаємодії, протестовані в цих сценаріях, ніколи не були помічені в даних робототехніки.

На малюнку нижче показано, що модель RT-2 перевершує попередні базові показники RT-1 і попередньо навченого зору (VC-1) за чотирма тестами.

RT-2 зберігає продуктивність робота при виконанні початкового завдання та покращує продуктивність робота в сценаріях, які раніше не бачили, з 32% до 62% для RT-1.

Низка результатів показує, що візуально-мовну модель (VLM) можна перетворити на потужну візуально-мовну модель (VLA), і роботом можна безпосередньо керувати шляхом поєднання попереднього навчання VLM з даними робота.

Подібно до ChatGPT, якщо така можливість буде застосована у великих масштабах, очікується, що світ зазнає значних змін. Однак Google не має найближчих планів щодо застосування робота RT-2, кажучи лише про те, що дослідники вважають, що ці роботи, які можуть розуміти людську мову, ніколи не зупиняться на рівні демонстрації можливостей.

Просто уявіть собі робота з вбудованою мовною моделлю, якого можна розмістити на складі, забрати ліки для вас або навіть використовувати як домашнього помічника — складати білизну, діставати речі з посудомийної машини та наводити порядок у домі.

Це дійсно може відкрити двері для використання роботів у людському середовищі, і всі напрямки, які потребують ручної праці, можуть бути використані, тобто в попередньому звіті OpenAI про прогнозування впливу ChatGPT на робочі місця, частина, яку велика модель не може тепер охоплено.

Втілений інтелект, недалеко від нас?

Останнім часом втілений інтелект є напрямком, який досліджує велика кількість дослідників. Цього місяця команда Лі Фейфей зі Стенфордського університету продемонструвала деякі нові результати.Завдяки великій мовній моделі та візуальній мовній моделі ШІ може аналізувати та планувати в 3D-просторі та керувати діями робота.

Стартап-компанія Zhihui Jun, що займається створенням універсальних гуманоїдних роботів, «Agibot» випустила вчора ввечері відео, яке також продемонструвало можливості автоматичного програмування та виконання завдань роботів на основі великих мовних моделей.