Robot ChatGPT đã có mặt: mô hình lớn bước vào thế giới thực, bước đột phá nặng ký của DeepMind

Gửi lệnh tới robot chưa bao giờ dễ dàng hơn thế.

Chúng tôi biết rằng sau khi thành thạo ngôn ngữ và hình ảnh trên Internet, mô hình lớn cuối cùng sẽ bước vào thế giới thực và "trí thông minh thể hiện" sẽ là hướng phát triển tiếp theo.

Kết nối mô hình lớn với robot, sử dụng ngôn ngữ tự nhiên đơn giản thay vì hướng dẫn phức tạp để hình thành một kế hoạch hành động cụ thể, không cần dữ liệu bổ sung và đào tạo, tầm nhìn này có vẻ tốt nhưng có vẻ hơi xa vời. Xét cho cùng, lĩnh vực robot nổi tiếng là khó khăn.

Tuy nhiên, AI đang phát triển nhanh hơn chúng ta tưởng.

Thứ Sáu tuần này, Google DeepMind đã công bố ra mắt RT-2: mô hình Hành động-Ngôn ngữ-Hình ảnh (VLA) đầu tiên trên thế giới để điều khiển rô-bốt.

Giờ đây, các hướng dẫn phức tạp không còn được sử dụng nữa, robot có thể được thao tác trực tiếp như ChatGPT.

RT-2 thông minh đến mức nào? Các nhà nghiên cứu của DeepMind đã cho nó thấy một cánh tay robot, bảo AI chọn "động vật đã tuyệt chủng", cánh tay duỗi ra, móng vuốt mở ra và rơi xuống, và nó tóm lấy con búp bê khủng long.

Cho đến lúc đó, rô-bốt không thể hiểu một cách đáng tin cậy những vật thể mà chúng chưa từng thấy, càng không thể lý giải được những thứ như liên kết "động vật đã tuyệt chủng" với "búp bê khủng long bằng nhựa".

Bảo robot đưa lon Coke cho Taylor Swift:

Có thể thấy chú robot này là một cổ động viên chân chính, đây là một tin vui đối với loài người.

Sự phát triển của các mô hình ngôn ngữ lớn như ChatGPT đang tạo ra một cuộc cách mạng trong lĩnh vực robot, Google đã cài đặt các mô hình ngôn ngữ tiên tiến nhất trên robot để cuối cùng chúng có một bộ não nhân tạo.

Trong một bài báo do DeepMind gửi gần đây, các nhà nghiên cứu cho biết mô hình RT-2 được đào tạo dựa trên dữ liệu mạng và rô bốt, sử dụng tiến trình nghiên cứu của các mô hình ngôn ngữ quy mô lớn như Bard và kết hợp nó với dữ liệu rô bốt. cũng có thể Hiểu hướng dẫn bằng các ngôn ngữ khác ngoài tiếng Anh.

Các giám đốc điều hành của Google cho biết RT-2 là một bước nhảy vọt về cách chế tạo và lập trình robot. "Vì sự thay đổi này, chúng tôi đã phải suy nghĩ lại toàn bộ kế hoạch nghiên cứu của mình," Vincent Vanhoucke, giám đốc người máy tại DeepMind của Google cho biết. "Rất nhiều điều mà tôi đã làm trước đây là hoàn toàn vô dụng."

**RT-2 được triển khai như thế nào? **

RT-2 của DeepMind được tháo rời và đọc là Robotic Transformer - mô hình người máy biến hình.

Để robot hiểu được lời nói của con người và thể hiện khả năng sống sót như trong phim khoa học viễn tưởng không phải là một nhiệm vụ dễ dàng. So với môi trường ảo, thế giới vật chất thực rất phức tạp và lộn xộn, và người máy thường cần những hướng dẫn phức tạp để làm một số việc đơn giản cho con người. Thay vào đó, con người theo bản năng biết phải làm gì.

Trước đây, việc huấn luyện robot mất nhiều thời gian và các nhà nghiên cứu phải xây dựng giải pháp cho các nhiệm vụ khác nhau một cách riêng lẻ, nhưng với sức mạnh của RT-2, robot có thể tự phân tích nhiều thông tin hơn và suy ra những việc cần làm tiếp theo.

RT-2 xây dựng trên Mô hình ngôn ngữ hình ảnh (VLM) và tạo ra một khái niệm mới: mô hình Hành động-ngôn ngữ hình ảnh (VLA), có thể học từ dữ liệu mạng và rô-bốt, đồng thời kết hợp kiến thức này để dịch thành các hướng dẫn chung mà rô-bốt có thể điều khiển. Mô hình thậm chí còn có thể sử dụng các gợi ý trong chuỗi suy nghĩ như thức uống nào tốt nhất cho người mệt mỏi (nước tăng lực).

Kiến trúc RT-2 và quy trình đào tạo

Trên thực tế, vào đầu năm ngoái, Google đã tung ra phiên bản robot RT-1, chỉ cần một mô hình được đào tạo trước duy nhất và RT-1 có thể tạo ra các hướng dẫn từ các đầu vào giác quan khác nhau (chẳng hạn như tầm nhìn, văn bản, v.v.). ) để thực thi nhiều tác vụ.loại tác vụ.

Là một mô hình được đào tạo trước, nó đương nhiên đòi hỏi rất nhiều dữ liệu để xây dựng tốt việc học tự giám sát. RT-2 xây dựng trên RT-1 và sử dụng dữ liệu trình diễn RT-1 do 13 rô-bốt thu thập trong môi trường văn phòng, nhà bếp trong hơn 17 tháng.

DeepMind đã tạo mô hình VLA

Chúng tôi đã đề cập trước đó rằng RT-2 được xây dựng trên cơ sở VLM, trong đó các mô hình VLM đã được đào tạo về dữ liệu quy mô Web và có thể được sử dụng để thực hiện các tác vụ như trả lời câu hỏi trực quan, tạo phụ đề hình ảnh hoặc nhận dạng đối tượng. Ngoài ra, các nhà nghiên cứu cũng thực hiện các điều chỉnh thích ứng cho hai mô hình VLM được đề xuất trước đó là PaLI-X (Mô hình Ngôn ngữ và Hình ảnh Đường dẫn) và PaLM-E (Mô hình Ngôn ngữ Đường dẫn Hiện thân), là xương sống của RT-2 và các mô hình này Tầm nhìn -Các phiên bản Ngôn ngữ-Chuyển động được gọi là RT-2-PaLI-X và RT-2-PaLM-E.

Để mô hình ngôn ngữ thị giác có thể điều khiển robot, thì vẫn cần điều khiển chuyển động. Nghiên cứu thực hiện một cách tiếp cận rất đơn giản: họ trình bày các hành động của rô-bốt bằng ngôn ngữ khác, mã thông báo văn bản và huấn luyện chúng bằng bộ dữ liệu ngôn ngữ tầm nhìn quy mô web.

Mã hóa chuyển động cho rô-bốt dựa trên phương pháp rời rạc hóa do Brohan và cộng sự đề xuất cho mẫu RT-1.

Như thể hiện trong hình bên dưới, nghiên cứu này biểu thị các hành động của rô-bốt dưới dạng chuỗi văn bản, có thể là một chuỗi số mã thông báo hành động của rô-bốt, chẳng hạn như "1 128 91 241 5 101 127 217".

Chuỗi bắt đầu bằng một lá cờ cho biết rô-bốt đang tiếp tục hay kết thúc tập hiện tại, sau đó rô-bốt thay đổi vị trí và góc quay của bộ thực hiện cuối cùng các lệnh, chẳng hạn như bộ kẹp của rô-bốt như đã chỉ ra.

Vì các hành động được biểu diễn dưới dạng chuỗi văn bản nên rô bốt có thể dễ dàng thực hiện lệnh hành động dưới dạng lệnh chuỗi. Với sự thể hiện này, chúng ta có thể tinh chỉnh trực tiếp các mô hình ngôn ngữ tầm nhìn hiện có và chuyển đổi chúng thành các mô hình hành động ngôn ngữ tầm nhìn.

Trong quá trình suy luận, mã thông báo văn bản được phân tách thành các hành động của robot để đạt được điều khiển vòng kín.

Thực nghiệm

Các nhà nghiên cứu đã thực hiện một loạt thí nghiệm định tính và định lượng trên mẫu RT-2.

Hình bên dưới thể hiện hiệu suất của RT-2 về hiểu ngữ nghĩa và suy luận cơ bản. Ví dụ, đối với nhiệm vụ "đặt dâu tây vào đúng bát", RT-2 không chỉ cần hiểu hình ảnh đại diện của dâu tây và bát mà còn cần suy luận trong ngữ cảnh của cảnh để biết nên đặt dâu tây vào bát nào. quả tương tự.Cùng nhau. Đối với nhiệm vụ nhặt một chiếc túi sắp rơi khỏi bàn, RT-2 cần hiểu các đặc tính vật lý của chiếc túi để phân biệt giữa hai chiếc túi và xác định các vật thể ở vị trí không ổn định.

Cần lưu ý rằng tất cả các tương tác được thử nghiệm trong các tình huống này chưa từng xuất hiện trong dữ liệu người máy.

Hình bên dưới cho thấy mẫu RT-2 vượt trội so với mẫu RT-1 trước đây và đường cơ sở được đào tạo trước về tầm nhìn (VC-1) trên bốn điểm chuẩn.

RT-2 duy trì hiệu suất của rô-bốt trong nhiệm vụ ban đầu và cải thiện hiệu suất của rô-bốt trong các tình huống chưa từng thấy trước đó, từ 32% lên 62% đối với RT-1.

Một loạt kết quả cho thấy mô hình ngôn ngữ hình ảnh (VLM) có thể được chuyển đổi thành mô hình hành động ngôn ngữ hình ảnh (VLA) mạnh mẽ và rô bốt có thể được điều khiển trực tiếp bằng cách kết hợp đào tạo trước VLM với dữ liệu rô bốt.

Tương tự như ChatGPT, nếu khả năng như vậy được áp dụng trên quy mô lớn, thế giới được ước tính sẽ trải qua những thay đổi đáng kể. Tuy nhiên, Google chưa có kế hoạch ứng dụng robot RT-2 ngay lập tức mà chỉ nói rằng các nhà nghiên cứu tin rằng những robot có thể hiểu được lời nói của con người này sẽ không bao giờ dừng lại ở mức độ thể hiện khả năng.

Chỉ cần tưởng tượng một rô-bốt có mô hình ngôn ngữ tích hợp sẵn có thể được đặt trong nhà kho, lấy thuốc cho bạn hoặc thậm chí được sử dụng như một trợ lý tại nhà—gấp quần áo, lấy đồ ra khỏi máy rửa chén và dọn dẹp nhà cửa.

Nó thực sự có thể mở ra cơ hội cho việc sử dụng rô bốt trong môi trường của con người và tất cả các hướng yêu cầu lao động thủ công đều có thể được thực hiện - đó là, trong báo cáo OpenAI trước đây về dự đoán tác động của ChatGPT đối với công việc, phần mà mô hình lớn không thể ảnh hưởng có thể bây giờ được bảo hiểm.

**Trí thông minh thể hiện, không xa chúng ta? **

Gần đây, trí thông minh thể hiện là một hướng mà một số lượng lớn các nhà nghiên cứu đang khám phá. Trong tháng này, nhóm Li Feifei của Đại học Stanford đã trình diễn một số kết quả mới: Thông qua mô hình ngôn ngữ lớn cộng với mô hình ngôn ngữ hình ảnh, AI có thể phân tích và lập kế hoạch trong không gian 3D và hướng dẫn các hành động của robot.

Công ty khởi nghiệp rô-bốt hình người phổ quát của Zhihui Jun “Agibot” đã phát hành một video vào đêm qua, video này cũng thể hiện khả năng lập trình tự động và khả năng thực hiện nhiệm vụ của rô-bốt dựa trên các mô hình ngôn ngữ lớn.

Dự kiến vào tháng 8, công ty của Zhihui Jun sẽ giới thiệu một số thành tựu gần đây với thế giới bên ngoài.

Có thể thấy, trong lĩnh vực người mẫu lớn vẫn còn những chuyện lớn sắp xảy ra.

Nội dung tham khảo:

Xem bản gốc
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
Không có bình luận