Robotlara komut göndermek hiç bu kadar kolay olmamıştı.
İnternette dil ve resimlerde ustalaştıktan sonra, büyük modelin sonunda gerçek dünyaya gireceğini ve bir sonraki geliştirme yönünün "bedenselleştirilmiş zeka" olması gerektiğini biliyoruz.
Büyük modeli robota bağlamak, ek veri ve eğitim olmadan belirli bir eylem planı oluşturmak için karmaşık talimatlar yerine basit doğal dil kullanmak, bu vizyon iyi görünüyor, ancak biraz uzak görünüyor. Ne de olsa, robotik alanı herkesin bildiği gibi zordur.
Ancak yapay zeka düşündüğümüzden daha hızlı gelişiyor.
Bu Cuma, GoogleDeepMind **robotları kontrol etmek için dünyanın ilk Vision-Language-Action (VLA) modeli olan RT-2'nin piyasaya sürüldüğünü duyurdu.
Artık karmaşık talimatlar kullanılmadığına göre, robot doğrudan ChatGPT gibi manipüle edilebilir.
RT-2 ne kadar akıllı? DeepMind araştırmacıları bunu robotik bir kolla gösterdiler, yapay zekaya "soyu tükenmiş hayvanları" seçmesini söylediler, kol uzandı, pençeler açılıp düştü ve dinozor bebeği kaptı.
Bundan önce robotlar, "soyu tükenmiş hayvanlar" ile "plastik dinozor bebekleri" arasında bağlantı kurmak şöyle dursun, hiç görmedikleri nesneleri güvenilir bir şekilde anlayamıyorlardı.
Robota Taylor Swift'e şu kola kutusunu vermesini söyle:
Bu robotun gerçek bir hayran olduğu görülüyor ki bu insanlar için sevindirici bir haber.
ChatGPT gibi büyük dil modellerinin geliştirilmesi, robotlar alanında bir devrim başlatıyor.Google, robotlara en gelişmiş dil modellerini yükledi, böylece sonunda yapay bir beyne sahip oldular.
Yakın zamanda DeepMind tarafından sunulan bir makalede araştırmacılar, RT-2 modelinin, Bard gibi büyük ölçekli dil modellerinin araştırma ilerlemesini kullanarak ve bunu robot verileriyle birleştirerek ağ ve robot verilerine dayalı olarak eğitildiğini belirtmişlerdi. İngilizce dışındaki dillerdeki talimatları da anlayabilir.
Google yöneticileri, RT-2'nin robotların inşa ve programlanma biçiminde büyük bir sıçrama olduğunu söylüyor. Google'ın DeepMind robotik direktörü Vincent Vanhoucke, "Bu değişiklik nedeniyle tüm araştırma planımızı yeniden düşünmek zorunda kaldık" diyor. "Daha önce yaptığım birçok şey tamamen işe yaramaz."
**RT-2 nasıl uygulanır? **
DeepMind'ın RT-2'si demonte edilir ve Robotik Transformatör - robotun transformatör modeli olarak okunur.
Robotların insan konuşmasını anlaması ve bilim kurgu filmlerindeki gibi beka kabiliyeti göstermesi kolay bir iş değil. Sanal ortamla karşılaştırıldığında, gerçek fiziksel dünya karmaşık ve düzensizdir ve robotlar genellikle insanlar için bazı basit şeyleri yapmak için karmaşık talimatlara ihtiyaç duyar. Bunun yerine, insanlar içgüdüsel olarak ne yapacaklarını bilirler.
Önceden, robotu eğitmek uzun zaman alıyordu ve araştırmacıların farklı görevler için ayrı ayrı çözümler oluşturması gerekiyordu, ancak RT-2'nin gücüyle robot kendi başına daha fazla bilgiyi analiz edebiliyor ve bundan sonra ne yapılacağına karar verebiliyor.
RT-2, Vision-Language Model (VLM) üzerine kuruludur ve yeni bir konsept oluşturur: ağ ve robot verilerinden öğrenebilen ve bu bilgiyi birleştirebilen Vision-Language-Action (VLA) modeli kontrol. Model, yorgun bir kişi için hangi içeceğin (enerji içecekleri) en iyi olacağı gibi düşünce zinciri ipuçlarını bile kullanabildi.
RT-2 mimarisi ve eğitim süreci
Aslında, daha geçen yıl Google, robotun RT-1 sürümünü piyasaya sürdü. Yalnızca önceden eğitilmiş tek bir modele ihtiyaç var ve RT-1, farklı duyusal girdilerden (görme, metin vb.) talimatlar üretebiliyor. ) birden fazla görevi yürütmek için.
Önceden eğitilmiş bir model olarak, kendi kendini denetleyen öğrenmenin iyi bir şekilde oluşturulması için doğal olarak çok fazla veri gerektirir. RT-2, RT-1 üzerine kuruludur ve 13 robot tarafından bir ofis, mutfak ortamında 17 ay boyunca toplanan RT-1 gösterim verilerini kullanır.
DeepMindVLA modelini oluşturdu
RT-2'nin, VLM modellerinin Web ölçekli veriler üzerinde eğitildiği ve görsel soru yanıtlama, görüntü altyazı oluşturma veya nesne tanıma gibi görevleri gerçekleştirmek için kullanılabileceği VLM temelinde inşa edildiğinden daha önce bahsetmiştik. Ayrıca araştırmacılar, RT-2'nin omurgası olarak daha önce önerilen iki VLM modeli PaLI-X (Pathways Language and Image model) ve PaLM-E'de (Pathways Language model Embodied) uyarlamalı ayarlamalar yaptı ve bu modeller The Vision -Dil-Hareket sürümleri RT-2-PaLI-X ve RT-2-PaLM-E olarak adlandırılır.
Görme-dil modelinin robotu kontrol edebilmesi için yine hareketi kontrol etmesi gerekmektedir. Çalışma çok basit bir yaklaşım benimsedi: robot eylemlerini başka bir dilde, metin belirteçlerinde temsil ettiler ve bunları web ölçeğinde bir görüntü dili veri kümesiyle eğittiler.
Robot için hareket kodlaması, Brohan ve diğerleri tarafından RT-1 modeli için önerilen ayrıklaştırma yöntemine dayanmaktadır.
Aşağıdaki şekilde gösterildiği gibi, bu araştırma robot eylemlerini, "1 128 91 241 5 101 127 217" gibi bir robot eylem belirteç numaraları dizisi olabilen metin dizileri olarak temsil eder.
Dize, robotun geçerli epizodu devam ettirip ettirmediğini veya sonlandırdığını gösteren bir bayrakla başlar ve ardından robot, belirtildiği gibi uç efektörün konumunu ve dönüşünü ve robotun kıskacı gibi komutları değiştirir.
Eylemler metin dizileri olarak temsil edildiğinden, bir robotun bir eylem komutunu yürütmesi bir dizi komutu kadar kolaydır. Bu gösterimle, mevcut görsel-dil modellerine doğrudan ince ayar yapabilir ve bunları görsel-dil-eylem modellerine dönüştürebiliriz.
Çıkarım sırasında, kapalı döngü kontrolü elde etmek için metin belirteçleri robot eylemlerine ayrıştırılır.
Deneysel
Araştırmacılar, RT-2 modeli üzerinde bir dizi kalitatif ve kantitatif deney gerçekleştirdiler.
Aşağıdaki şekil, RT-2'nin semantik anlama ve temel muhakeme üzerindeki performansını göstermektedir. Örneğin, "çilekleri doğru kaseye koyma" görevi için, RT-2'nin sadece çileklerin ve kaselerin temsilini anlaması gerekmez, aynı zamanda çileklerin birlikte yerleştirilmesi gerektiğini bilmek için sahne bağlamında akıl yürütmesi gerekir. benzer meyveler Birlikte. Masadan düşmek üzere olan bir çantayı alma görevi için, RT-2'nin iki çanta arasındaki belirsizliği gidermek ve kararsız konumlardaki nesneleri belirlemek için çantanın fiziksel özelliklerini anlaması gerekir.
Bu senaryolarda test edilen tüm etkileşimlerin robotik verilerde hiç görülmediğine dikkat edilmelidir.
Aşağıdaki şekil, RT-2 modelinin dört kıyaslamada önceki RT-1 ve görüntü ön eğitimli (VC-1) temel çizgilerinden daha iyi performans gösterdiğini göstermektedir.
RT-2, robotun orijinal görevdeki performansını korur ve robotun daha önce görülmemiş senaryolardaki performansını RT-1 için %32'den %62'ye yükseltir.
Bir dizi sonuç, görme-dil modelinin (VLM) güçlü bir görme-dil-eylem (VLA) modeline dönüştürülebileceğini ve VLM ön eğitimini robot verileriyle birleştirerek robotun doğrudan kontrol edilebileceğini göstermektedir.
ChatGPT'ye benzer şekilde, böyle bir yetenek geniş ölçekte uygulanırsa, dünyanın önemli değişikliklere uğrayacağı tahmin ediliyor. Ancak Google'ın RT-2 robotunu uygulamak için acil bir planı yok, sadece araştırmacıların insan konuşmasını anlayabilen bu robotların yetenek gösterme seviyesinde asla durmayacağına inandıklarını söylüyor.
Bir depoya yerleştirilebilen, sizin için ilacınızı alabilen, hatta çamaşırları katlayan, bulaşık makinesinden eşyaları çıkaran ve evin etrafını toplayan bir ev asistanı olarak kullanılabilen yerleşik dil modeline sahip bir robot hayal edin.
Robotların insan ortamında kullanımına gerçekten kapı açabilir ve el emeği gerektiren tüm yönler ele alınabilir - yani, ChatGPT'nin işler üzerindeki etkisini tahmin etmeye ilişkin önceki OpenAI raporunda, büyük modelin yapamadığı kısım. etki kutusu artık kapsanmıştır.
**Bedenlenmiş zeka bizden çok uzakta değil mi? **
Son zamanlarda, somutlaştırılmış zeka, çok sayıda araştırmacının keşfettiği bir yöndür. Bu ay, Stanford Üniversitesi'nden Li Feifei ekibi bazı yeni sonuçlar gösterdi: Büyük bir dil modeli artı bir görsel dil modeli aracılığıyla yapay zeka, 3B alanda analiz edip planlayabilir ve robot eylemlerine rehberlik edebilir.
Zhihui Jun'un evrensel insansı robot şirketi "Agibot" dün gece büyük dil modellerine dayalı robotların otomatik programlama ve görev yürütme yeteneklerini gösteren bir video yayınladı.
Ağustos ayında Zhihui Jun'un şirketinin bazı yeni başarılarını dış dünyaya sunması bekleniyor.
Görüldüğü gibi büyük modeller alanında daha yaşanacak büyük şeyler var.
ChatGPT robotu burada: Büyük model gerçek dünyaya giriyor, DeepMind'in ağır sıklet atılımı
İnternette dil ve resimlerde ustalaştıktan sonra, büyük modelin sonunda gerçek dünyaya gireceğini ve bir sonraki geliştirme yönünün "bedenselleştirilmiş zeka" olması gerektiğini biliyoruz.
Büyük modeli robota bağlamak, ek veri ve eğitim olmadan belirli bir eylem planı oluşturmak için karmaşık talimatlar yerine basit doğal dil kullanmak, bu vizyon iyi görünüyor, ancak biraz uzak görünüyor. Ne de olsa, robotik alanı herkesin bildiği gibi zordur.
Ancak yapay zeka düşündüğümüzden daha hızlı gelişiyor.
Bu Cuma, Google DeepMind **robotları kontrol etmek için dünyanın ilk Vision-Language-Action (VLA) modeli olan RT-2'nin piyasaya sürüldüğünü duyurdu.
Artık karmaşık talimatlar kullanılmadığına göre, robot doğrudan ChatGPT gibi manipüle edilebilir.
RT-2 ne kadar akıllı? DeepMind araştırmacıları bunu robotik bir kolla gösterdiler, yapay zekaya "soyu tükenmiş hayvanları" seçmesini söylediler, kol uzandı, pençeler açılıp düştü ve dinozor bebeği kaptı.
Bundan önce robotlar, "soyu tükenmiş hayvanlar" ile "plastik dinozor bebekleri" arasında bağlantı kurmak şöyle dursun, hiç görmedikleri nesneleri güvenilir bir şekilde anlayamıyorlardı.
Robota Taylor Swift'e şu kola kutusunu vermesini söyle:
Bu robotun gerçek bir hayran olduğu görülüyor ki bu insanlar için sevindirici bir haber.
ChatGPT gibi büyük dil modellerinin geliştirilmesi, robotlar alanında bir devrim başlatıyor.Google, robotlara en gelişmiş dil modellerini yükledi, böylece sonunda yapay bir beyne sahip oldular.
Yakın zamanda DeepMind tarafından sunulan bir makalede araştırmacılar, RT-2 modelinin, Bard gibi büyük ölçekli dil modellerinin araştırma ilerlemesini kullanarak ve bunu robot verileriyle birleştirerek ağ ve robot verilerine dayalı olarak eğitildiğini belirtmişlerdi. İngilizce dışındaki dillerdeki talimatları da anlayabilir.
Google yöneticileri, RT-2'nin robotların inşa ve programlanma biçiminde büyük bir sıçrama olduğunu söylüyor. Google'ın DeepMind robotik direktörü Vincent Vanhoucke, "Bu değişiklik nedeniyle tüm araştırma planımızı yeniden düşünmek zorunda kaldık" diyor. "Daha önce yaptığım birçok şey tamamen işe yaramaz."
**RT-2 nasıl uygulanır? **
DeepMind'ın RT-2'si demonte edilir ve Robotik Transformatör - robotun transformatör modeli olarak okunur.
Robotların insan konuşmasını anlaması ve bilim kurgu filmlerindeki gibi beka kabiliyeti göstermesi kolay bir iş değil. Sanal ortamla karşılaştırıldığında, gerçek fiziksel dünya karmaşık ve düzensizdir ve robotlar genellikle insanlar için bazı basit şeyleri yapmak için karmaşık talimatlara ihtiyaç duyar. Bunun yerine, insanlar içgüdüsel olarak ne yapacaklarını bilirler.
Önceden, robotu eğitmek uzun zaman alıyordu ve araştırmacıların farklı görevler için ayrı ayrı çözümler oluşturması gerekiyordu, ancak RT-2'nin gücüyle robot kendi başına daha fazla bilgiyi analiz edebiliyor ve bundan sonra ne yapılacağına karar verebiliyor.
RT-2, Vision-Language Model (VLM) üzerine kuruludur ve yeni bir konsept oluşturur: ağ ve robot verilerinden öğrenebilen ve bu bilgiyi birleştirebilen Vision-Language-Action (VLA) modeli kontrol. Model, yorgun bir kişi için hangi içeceğin (enerji içecekleri) en iyi olacağı gibi düşünce zinciri ipuçlarını bile kullanabildi.
RT-2 mimarisi ve eğitim süreci
Aslında, daha geçen yıl Google, robotun RT-1 sürümünü piyasaya sürdü. Yalnızca önceden eğitilmiş tek bir modele ihtiyaç var ve RT-1, farklı duyusal girdilerden (görme, metin vb.) talimatlar üretebiliyor. ) birden fazla görevi yürütmek için.
Önceden eğitilmiş bir model olarak, kendi kendini denetleyen öğrenmenin iyi bir şekilde oluşturulması için doğal olarak çok fazla veri gerektirir. RT-2, RT-1 üzerine kuruludur ve 13 robot tarafından bir ofis, mutfak ortamında 17 ay boyunca toplanan RT-1 gösterim verilerini kullanır.
DeepMind VLA modelini oluşturdu
RT-2'nin, VLM modellerinin Web ölçekli veriler üzerinde eğitildiği ve görsel soru yanıtlama, görüntü altyazı oluşturma veya nesne tanıma gibi görevleri gerçekleştirmek için kullanılabileceği VLM temelinde inşa edildiğinden daha önce bahsetmiştik. Ayrıca araştırmacılar, RT-2'nin omurgası olarak daha önce önerilen iki VLM modeli PaLI-X (Pathways Language and Image model) ve PaLM-E'de (Pathways Language model Embodied) uyarlamalı ayarlamalar yaptı ve bu modeller The Vision -Dil-Hareket sürümleri RT-2-PaLI-X ve RT-2-PaLM-E olarak adlandırılır.
Görme-dil modelinin robotu kontrol edebilmesi için yine hareketi kontrol etmesi gerekmektedir. Çalışma çok basit bir yaklaşım benimsedi: robot eylemlerini başka bir dilde, metin belirteçlerinde temsil ettiler ve bunları web ölçeğinde bir görüntü dili veri kümesiyle eğittiler.
Robot için hareket kodlaması, Brohan ve diğerleri tarafından RT-1 modeli için önerilen ayrıklaştırma yöntemine dayanmaktadır.
Aşağıdaki şekilde gösterildiği gibi, bu araştırma robot eylemlerini, "1 128 91 241 5 101 127 217" gibi bir robot eylem belirteç numaraları dizisi olabilen metin dizileri olarak temsil eder.
Dize, robotun geçerli epizodu devam ettirip ettirmediğini veya sonlandırdığını gösteren bir bayrakla başlar ve ardından robot, belirtildiği gibi uç efektörün konumunu ve dönüşünü ve robotun kıskacı gibi komutları değiştirir.
Eylemler metin dizileri olarak temsil edildiğinden, bir robotun bir eylem komutunu yürütmesi bir dizi komutu kadar kolaydır. Bu gösterimle, mevcut görsel-dil modellerine doğrudan ince ayar yapabilir ve bunları görsel-dil-eylem modellerine dönüştürebiliriz.
Çıkarım sırasında, kapalı döngü kontrolü elde etmek için metin belirteçleri robot eylemlerine ayrıştırılır.
Deneysel
Araştırmacılar, RT-2 modeli üzerinde bir dizi kalitatif ve kantitatif deney gerçekleştirdiler.
Aşağıdaki şekil, RT-2'nin semantik anlama ve temel muhakeme üzerindeki performansını göstermektedir. Örneğin, "çilekleri doğru kaseye koyma" görevi için, RT-2'nin sadece çileklerin ve kaselerin temsilini anlaması gerekmez, aynı zamanda çileklerin birlikte yerleştirilmesi gerektiğini bilmek için sahne bağlamında akıl yürütmesi gerekir. benzer meyveler Birlikte. Masadan düşmek üzere olan bir çantayı alma görevi için, RT-2'nin iki çanta arasındaki belirsizliği gidermek ve kararsız konumlardaki nesneleri belirlemek için çantanın fiziksel özelliklerini anlaması gerekir.
Bu senaryolarda test edilen tüm etkileşimlerin robotik verilerde hiç görülmediğine dikkat edilmelidir.
Aşağıdaki şekil, RT-2 modelinin dört kıyaslamada önceki RT-1 ve görüntü ön eğitimli (VC-1) temel çizgilerinden daha iyi performans gösterdiğini göstermektedir.
RT-2, robotun orijinal görevdeki performansını korur ve robotun daha önce görülmemiş senaryolardaki performansını RT-1 için %32'den %62'ye yükseltir.
Bir dizi sonuç, görme-dil modelinin (VLM) güçlü bir görme-dil-eylem (VLA) modeline dönüştürülebileceğini ve VLM ön eğitimini robot verileriyle birleştirerek robotun doğrudan kontrol edilebileceğini göstermektedir.
ChatGPT'ye benzer şekilde, böyle bir yetenek geniş ölçekte uygulanırsa, dünyanın önemli değişikliklere uğrayacağı tahmin ediliyor. Ancak Google'ın RT-2 robotunu uygulamak için acil bir planı yok, sadece araştırmacıların insan konuşmasını anlayabilen bu robotların yetenek gösterme seviyesinde asla durmayacağına inandıklarını söylüyor.
Bir depoya yerleştirilebilen, sizin için ilacınızı alabilen, hatta çamaşırları katlayan, bulaşık makinesinden eşyaları çıkaran ve evin etrafını toplayan bir ev asistanı olarak kullanılabilen yerleşik dil modeline sahip bir robot hayal edin.
Robotların insan ortamında kullanımına gerçekten kapı açabilir ve el emeği gerektiren tüm yönler ele alınabilir - yani, ChatGPT'nin işler üzerindeki etkisini tahmin etmeye ilişkin önceki OpenAI raporunda, büyük modelin yapamadığı kısım. etki kutusu artık kapsanmıştır.
**Bedenlenmiş zeka bizden çok uzakta değil mi? **
Son zamanlarda, somutlaştırılmış zeka, çok sayıda araştırmacının keşfettiği bir yöndür. Bu ay, Stanford Üniversitesi'nden Li Feifei ekibi bazı yeni sonuçlar gösterdi: Büyük bir dil modeli artı bir görsel dil modeli aracılığıyla yapay zeka, 3B alanda analiz edip planlayabilir ve robot eylemlerine rehberlik edebilir.
Zhihui Jun'un evrensel insansı robot şirketi "Agibot" dün gece büyük dil modellerine dayalı robotların otomatik programlama ve görev yürütme yeteneklerini gösteren bir video yayınladı.
Ağustos ayında Zhihui Jun'un şirketinin bazı yeni başarılarını dış dünyaya sunması bekleniyor.
Görüldüğü gibi büyük modeller alanında daha yaşanacak büyük şeyler var.
Referans içeriği: