Bước tiến lớn về robot AGI của Google: Nhóm 54 người bị kìm hãm trong 7 tháng, khả năng khái quát hóa mạnh mẽ và lý luận mạnh mẽ, kết quả mới sau khi sáp nhập DeepMind và Google Brain

Nguồn gốc: Qubit

Mô hình lớn bùng nổ đang định hình lại nghiên cứu người máy của DeepMind của Google.

Một trong những thành tựu mới nhất là dự án robot RT-2, họ mất 7 tháng để chế tạo và nó đã trở nên phổ biến trên Internet:

Nó hiệu quả như thế nào?

Chỉ cần ra lệnh bằng tiếng người, anh chàng nhỏ bé trước mặt có thể vẫy cánh tay robot của mình, suy nghĩ và hoàn thành "nhiệm vụ của chủ nhân".

Như đưa nước cho ca sĩ nhạc pop Taylor Swift, hay nhận diện logo của đội ngôi sao:

Nó thậm chí có thể chủ động suy nghĩ và để nó "nhặt những loài động vật đã tuyệt chủng", và nó có thể nhặt chính xác những con khủng long từ ba món đồ chơi bằng nhựa sư tử, cá voi và khủng long.

Theo lời của cư dân mạng, đừng coi thường khả năng này, đây là bước nhảy vọt hợp lý từ "động vật đã tuyệt chủng" thành "khủng long nhựa".

Điều "đáng sợ" hơn là nó có thể dễ dàng giải quyết bài toán suy luận nhiều giai đoạn "chọn đồ uống cho người mệt mỏi" cần kết hợp với chuỗi suy nghĩ--ngay khi nghe lệnh , bàn tay nhỏ sẽ đi thẳng đến Red Bull, Đừng quá thông minh.

Một số cư dân mạng than thở sau khi đọc:

Nóng lòng, tua nhanh đến rửa bát cho người (đầu chó thủ công)

Điều này được hiểu rằng thành tựu của Google DeepMind được tạo ra bởi 54 nhà nghiên cứu và phải mất 7 tháng trước và sau đó, trước khi nó trở thành thứ "quá dễ dàng" mà chúng ta đã thấy.

Theo New York Times, Vincent Vanhoucke, Giám đốc Robotics tại Google DeepMind, tin rằng các mô hình lớn đã thay đổi hoàn toàn hướng nghiên cứu của bộ phận của họ:

Vì sự thay đổi (mô hình lớn) này, chúng tôi đã phải suy nghĩ lại toàn bộ dự án nghiên cứu. Nhiều thứ chúng tôi đã nghiên cứu trước đây đã thất bại hoàn toàn.

Vậy RT-2 có thể đạt được những loại hiệu ứng nào và nghiên cứu này chính xác là về cái gì?

Cắm mô hình lớn đa phương thức vào cánh tay rô-bốt

Dự án robot có tên RT-2 (Robotic Transformer 2), là một "phiên bản tiến hóa" của RT-1 ra mắt vào cuối năm ngoái.

So với các nghiên cứu rô-bốt khác, ưu điểm cốt lõi của RT-2 là nó không chỉ có thể hiểu "lời nói của con người" mà còn có thể suy luận về "lời nói của con người" và chuyển chúng thành hướng dẫn mà rô-bốt có thể hiểu được, để hoàn thành nhiệm vụ theo từng giai đoạn. .

Cụ thể, nó có ba khả năng chính - hiểu biểu tượng (Hiểu biểu tượng), lập luận (Lập luận) và nhận dạng con người (Nhận dạng con người).

Khả năng đầu tiên là "hiểu biểu tượng", có thể trực tiếp mở rộng kiến thức về đào tạo trước mô hình lớn sang dữ liệu mà robot chưa từng thấy trước đây. Ví dụ, mặc dù không có "Red Bull" trong cơ sở dữ liệu của robot, nhưng nó có thể hiểu và nắm bắt được hình dáng của "Red Bull" từ kiến thức về mô hình lớn và xử lý các đối tượng.

Khả năng thứ hai là "suy luận", đây cũng là ưu điểm cốt lõi của RT-2, yêu cầu robot phải thành thạo ba kỹ năng chính là toán học, suy luận bằng hình ảnh và hiểu biết đa ngôn ngữ.

Kỹ năng 1, bao gồm lệnh suy luận logic toán học, "đặt quả chuối thành tổng 2+1":

Kỹ năng Hai, Lý luận bằng hình ảnh, chẳng hạn như "Đặt dâu tây vào đúng bát":

Kỹ năng 3, hiểu đa ngôn ngữ, có thể hoàn thành hướng dẫn ngay cả khi không có tiếng Anh, chẳng hạn như ra lệnh bằng tiếng Tây Ban Nha để "chọn ra thứ đặc biệt nhất trong số nhiều đồ vật":

Khả năng thứ ba là khả năng nhận biết con người, có thể nhận biết và hiểu chính xác hành vi của con người, ví dụ "đưa nước cho Taylor Swift" được thấy ở phần đầu là một trong những khả năng thể hiện.

Vậy, ba khả năng này được thực hiện như thế nào?

Nói một cách đơn giản, đó là sự kết hợp các khả năng "suy luận", "nhận dạng" và "toán học" của mô hình lớn đa phương thức văn bản trực quan (VLM) với khả năng vận hành của rô-bốt.

Để đạt được điều này, các nhà nghiên cứu đã trực tiếp thêm một chế độ gọi là "chế độ hành động của robot" vào mô hình lớn văn bản trực quan (VLM), do đó biến nó thành mô hình lớn hành động văn bản trực quan (VLA).

Sau đó, dữ liệu hành động robot rất cụ thể ban đầu được chuyển đổi thành mã thông báo văn bản.

Ví dụ: dữ liệu như mức độ quay và điểm tọa độ được đặt được chuyển đổi thành văn bản "đặt vào một vị trí nhất định".

Bằng cách này, dữ liệu robot cũng có thể được sử dụng trong bộ dữ liệu ngôn ngữ hình ảnh để đào tạo, đồng thời trong quá trình suy luận, các hướng dẫn văn bản gốc sẽ được chuyển đổi lại thành dữ liệu robot để thực hiện một loạt các thao tác như vậy. như điều khiển robot.

Đúng vậy, thật đơn giản và thô lỗ (đầu chó thủ công)

Trong nghiên cứu này, nhóm chủ yếu “nâng cấp” dựa trên hàng loạt mô hình tỷ lệ lớn cơ bản của Google, bao gồm 5 tỷ và 55 tỷ PaLI-X, 3 tỷ PaLI và 12 tỷ PaLM-E.

Để cải thiện khả năng của chính mô hình lớn, các nhà nghiên cứu cũng đã nỗ lực rất nhiều, sử dụng chuỗi tư duy phổ biến gần đây, cơ sở dữ liệu vectơ và kiến trúc không có độ dốc.

Chuỗi hoạt động này cũng mang lại cho RT-2 rất nhiều lợi thế mới so với RT-1 ra mắt năm ngoái.

Hãy cùng xem các kết quả thí nghiệm cụ thể.

Hiệu suất gấp ba lần so với RT-1

RT-2 sử dụng dữ liệu của mẫu robot thế hệ trước RT-1 để huấn luyện (nghĩa là dữ liệu không thay đổi nhưng phương pháp thì khác).

Dữ liệu được thu thập trong khoảng thời gian 17 tháng bằng cách sử dụng 13 rô bốt trong môi trường nhà bếp được thiết lập tại văn phòng.

Trong thử nghiệm thực tế (tổng cộng 6.000 lần), tác giả đã cho RT-2 nhiều đối tượng chưa từng thấy trước đó, yêu cầu RT-2 phải thực hiện hiểu ngữ nghĩa ngoài dữ liệu tinh chỉnh mới hoàn thành nhiệm vụ.

Kết quả đều được thực hiện khá tốt:

Bao gồm nhận dạng đơn giản các chữ cái, quốc kỳ và ký tự để xác định động vật trên cạn từ búp bê, chọn con có màu khác và thậm chí nhặt đồ ăn nhẹ sắp rơi khỏi bàn và các lệnh phức tạp khác.

Từ góc độ của ba khả năng phân chia là hiểu biểu tượng, suy luận và nhận dạng con người, hai biến thể của RT-2 tốt hơn nhiều so với RT-1 và một phương pháp đào tạo trước trực quan khác VC-1, với hiệu suất gấp 3 lần .

Như đã đề cập trước đó, hai biến thể lần lượt được đào tạo trên PaLM-E với 12 tỷ tham số và PaLI-X với 55 tỷ tham số.

Về đánh giá khả năng tổng quát hóa cụ thể, thông qua các thử nghiệm chia nhỏ nhiều hạng mục với nhiều mô hình cơ bản, cuối cùng nhận thấy rằng hiệu suất của RT-2 đã được cải thiện khoảng 2 lần.

(Thật không may, chúng tôi chưa thấy nó so với các phương pháp rô-bốt dựa trên LLM mới nhất của các đội khác)

Để hiểu rõ hơn các cài đặt khác nhau của RT-2 ảnh hưởng như thế nào đến kết quả tổng quát hóa, tác giả đã thiết kế hai loại đánh giá:

Đầu tiên, về kích thước mô hình, chỉ có biến thể RT-2 PaLI-X sử dụng 5 tỷ tham số và 55 tỷ tham số để huấn luyện;

Thứ hai là phương pháp đào tạo, áp dụng phương pháp đào tạo mô hình từ đầu so với tinh chỉnh so với tinh chỉnh hợp tác.

Kết quả cuối cùng cho thấy tầm quan trọng của trọng số tiền huấn luyện VLM và khả năng tổng quát hóa của mô hình có xu hướng tăng theo quy mô mô hình.

Ngoài ra, nhóm tác giả cũng đánh giá RT-2 trên benchmark bảng ngôn ngữ mã nguồn mở và kết quả cho thấy nó đạt kết quả SOTA trên benchmark giả lập (90% so với 77% trước đó).

Cuối cùng, vì biến thể RT-2 PaLM-E là một mô hình hành động ngôn ngữ hình ảnh có thể hoạt động như một bộ điều khiển LLM, VLM và rô-bốt trong một mạng thần kinh duy nhất, RT-2 cũng có thể thực hiện lý luận chuỗi suy nghĩ có kiểm soát.

Trong số năm nhiệm vụ suy luận được hiển thị trong hình bên dưới (đặc biệt là nhiệm vụ cuối cùng rất thú vị: chọn một mục có thể thay thế búa), nó sẽ xuất các bước ngôn ngữ tự nhiên sau khi nhận lệnh, sau đó đưa ra mã hành động cụ thể.

Cuối cùng, tóm lại, mẫu RT-2 mới nhất này không chỉ có thể áp dụng tốt hơn cho các cảnh khác nhau mà máy chưa từng thấy trước đây mà còn có khả năng khái quát hóa tốt hơn; đồng thời, do tốt hơn Với sự phù hộ của mẫu lớn, nó cũng đã thành thạo một số khả năng mới khó khăn, chẳng hạn như lý luận.

Một điều nữa

Việc Google tập trung vào nghiên cứu rô-bốt trên mô hình lớn dường như không phải là "vô căn cứ".

Chỉ trong hai ngày qua, một bài báo về "Sử dụng các mô hình lớn để giúp có được nhiều kỹ năng vận hành robot hơn" đồng tác giả với Đại học Columbia cũng rất nổi tiếng:

Bài báo này đề xuất một khung mới không chỉ cho phép robot thích ứng tốt với mô hình lớn mà còn giữ được khả năng vận hành và điều khiển cơ bản của robot ban đầu:

Không giống như RT-2, dự án này là mã nguồn mở:

Đúng là mô hình lớn đã được sử dụng để thúc đẩy việc nâng cấp toàn bộ bộ phận robot.

Nhắc đến những thành tựu trí tuệ thể hiện của nhóm Li Feifei cách đây không lâu, có thể nói rằng việc sử dụng các mô hình lớn để điều khiển rô-bốt đã trở thành một xu hướng nghiên cứu và chúng ta đã chứng kiến một làn sóng tiến bộ rất hứa hẹn.

Kỳ vọng của bạn đối với hướng nghiên cứu này là gì?

địa chỉ dự án:

Liên kết tham khảo:

[1]

[2]

[3]

[4]

Xem bản gốc
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
Không có bình luận