Хуан Реньсюнь розмовляє з сімома авторами статті Transformer: Ми потрапили в пастку оригінальної моделі і потребуємо більш потужної нової архітектури

![Хуан Реньсюнь розмовляє з сімома авторами статті Transformer: Ми потрапили в пастку оригінальної моделі і потребуємо більш потужної нової архітектури](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ 3209736c2376bc78f33a30e387cc4e77.jpeg)

Автор: Guo Xiaojing

Джерело: Tencent News

У 2017 році була опублікована знакова стаття «Увага — це все, що вам потрібно». У ній вперше представлено модель трансформатора, засновану на механізмі самоуважності. Ця інноваційна архітектура позбулася обмежень традиційних RNN і CNN. Через механізм паралельної обробки уваги, ефективно подолано проблему залежності на великій відстані та значно покращено швидкість обробки послідовності даних. Кодерно-декодерна структура Transformer і багатоголовий механізм уваги викликали бурю в області штучного інтелекту.На цій архітектурі побудований популярний ChatGPT.

Уявіть, що модель трансформатора схожа на те, що ваш мозок розмовляє з другом, звертаючи увагу на кожне слово, яке вимовляє інша особа одночасно, і розуміючи зв’язки між цими словами. Це надає комп’ютерам можливості розуміння мови, схожі на людину. До цього RNN був основним методом обробки мови, але його швидкість обробки інформації була низькою, як у старомодного магнітофона, який потрібно відтворювати слово в слово. Модель Transformer схожа на ефективного діджея, здатного керувати декількома треками одночасно та швидко отримувати ключову інформацію.

Поява моделі Transformer значно покращила здатність комп’ютерів обробляти мову, зробивши такі завдання, як машинний переклад, розпізнавання мовлення та резюмування тексту більш ефективними та точними. Це величезний стрибок для всієї галузі.

Це нововведення стало результатом спільних зусиль восьми вчених ШІ, які раніше працювали в Google. Їх початкова мета була простою: покращити службу машинного перекладу Google. Вони хочуть, щоб машини могли повністю розуміти та читати цілі речення, а не перекладати їх слово в слово окремо. Ця концепція стала відправною точкою архітектури «Трансформер» — механізму «самоуважності». Виходячи з цього, ці вісім авторів використали свій відповідний досвід і опублікували статтю «Увага — це все, що вам потрібно» в грудні 2017 року, детально описуючи архітектуру Transformer і відкриваючи нову главу в генеративному ШІ.

У світі генеративного штучного інтелекту закон масштабування є основним принципом. Коротше кажучи, зі збільшенням масштабу моделі Transformer зростає і її продуктивність, але це також означає, що для підтримки великих моделей і більш глибоких мереж потрібні більш потужні обчислювальні ресурси, а також необхідні високопродуктивні обчислювальні послуги.NVIDIA також стала ключовий гравець у цій хвилі ШІ.

На цьогорічній конференції GTC Jen-Hsun Huang з Nvidia запросив сімох авторів Transformer (Нікі Пармар тимчасово не зміг бути присутнім з певних причин) взяти участь у круглому столі в урочистій формі. Це був перший раз, коли сім авторів публічно обговорювати свою роботу Вигляд групи.

Вони також висловили кілька вражаючих зауважень під час розмови:

  • Світ потребує чогось кращого, ніж Transformer, і я думаю, що всі ми тут сподіваємося, що його замінить щось, що виведе нас на нове плато продуктивності.
  • Ми не досягли нашої початкової мети. Наш початковий намір запустити Transformer полягав у моделюванні процесу еволюції Token. Це не просто лінійний процес генерації, а поетапна еволюція тексту або коду.
  • Прості задачі, такі як 2+2, які можуть використовувати трильйони ресурсів параметрів великих моделей. Я вважаю, що адаптивне обчислення – це одна з наступних речей, яка має відбутися, де ми знаємо, скільки обчислювальних ресурсів потрібно витратити на конкретну проблему.
  • Я вважаю, що нинішня модель занадто доступна і занадто мала. Ціна токена приблизно в 1 мільйон доларів у 100 разів дешевша, ніж купити книгу в м’якій палітурці.

Нижче наведено фактичний вміст:

Дженсен Хуан: За останні шістдесят років комп’ютерні технології, здається, не зазнали фундаментальних змін, принаймні з моменту мого народження. Комп’ютерні системи, які ми зараз використовуємо, незалежно від того, чи йдеться про багатозадачність, поділ апаратного та програмного забезпечення, сумісність програмного забезпечення, можливості резервного копіювання даних і навички програмування інженерів-програмістів, в основному базуються на принципах розробки IBM 360 – центральний процесор, біо підсистема, багатозадачність, апаратно-програмне забезпечення, системна сумісність програмного забезпечення тощо.

Я не думаю, що сучасні комп’ютери кардинально змінилися з 1964 року. Хоча у 1980-х і 1990-х роках комп’ютери зазнали значної трансформації у формі, з якою ми знайомі сьогодні. Але з часом гранична вартість комп’ютерів продовжує знижуватися, зменшуючи її вартість у десять разів кожні десять років, у тисячу разів за п’ятнадцять років і в десять тисяч разів за двадцять років. Під час цієї комп’ютерної революції зниження вартості було настільки великим, що за два десятиліття вартість комп’ютерів впала майже в 10 000 разів.Ця зміна принесла суспільству величезну силу.

Спробуйте уявити, якби всі дорогі предмети у вашому житті були зменшені до однієї десятитисячної їх початкової вартості. Наприклад, автомобіль, який ви купили за 200 000 доларів двадцять років тому, зараз коштує лише 1 долар. Ви можете уявити зміни? Однак падіння вартості комп’ютерів не відбулося миттєво, а поступово досягло критичної точки, а потім тенденція до зниження вартості раптово припинилася.З кожним роком вона продовжувала дещо покращуватися, але швидкість змін залишалася на місці.

Ми почали досліджувати прискорені обчислення, але використовувати прискорені обчислення нелегко. Вам потрібно розробляти їх поступово з нуля. У минулому ми могли слідувати встановленим крокам для вирішення проблеми крок за кроком, але тепер нам потрібно переробити ці кроки. Це абсолютно нова галузь науки, яка переформулює попередні правила в паралельні алгоритми.

Ми усвідомлюємо це та віримо, що якщо ми зможемо пришвидшити хоча б 1% коду та заощадити 99% часу виконання, тоді знайдуться програми, які виграють від цього. Наша мета — зробити неможливе можливим, або зробити можливе неможливим, або зробити те, що вже можливо, ефективнішим. Ось що означає прискорене обчислення.

Озираючись на історію компанії, ми бачимо нашу здатність прискорювати різноманітні програми. Спочатку ми досягли значного прискорення у сфері ігор, настільки ефективного, що люди помилково вважали нас ігровою компанією. Але насправді наша мета набагато більше, ніж це, тому що цей ринок величезний і достатньо великий, щоб сприяти неймовірному технологічному прогресу. Така ситуація не поширена, але ми знайшли окремий випадок.

Коротше кажучи, у 2012 році AlexNet запалив іскру, яка стала першим зіткненням між штучним інтелектом і графічними процесорами NVIDIA. Це означає початок нашої дивовижної подорожі в цій галузі. Кілька років потому ми виявили ідеальний сценарій застосування, який заклав основу для того, де ми є сьогодні.

Одним словом, ці досягнення закладають основу для розвитку генеративного штучного інтелекту. Generative AI може не лише розпізнавати зображення, але й перетворювати текст на зображення та навіть створювати абсолютно новий вміст. Зараз ми маємо достатньо технічних можливостей, щоб зрозуміти пікселі, ідентифікувати їх і зрозуміти значення, що стоїть за ними. Завдяки значенню, що стоїть за ними, ми можемо створювати новий вміст. Здатність штучного інтелекту розуміти значення, що стоїть за даними, є величезною зміною.

У нас є підстави вважати, що це початок нової промислової революції. У цій революції ми створюємо те, чого ще ніколи не робили. Наприклад, у попередній промисловій революції вода була джерелом енергії, і вода потрапляла в пристрої, які ми створювали, і генератори починали працювати, вода надходила, а електрика виходила, як за магією.

Generative AI — це абсолютно нове «програмне забезпечення», яке може створювати програмне забезпечення, і воно спирається на спільні зусилля багатьох вчених. Уявіть, що ви надаєте ШІ вихідні матеріали — дані, і вони потрапляють у «будівлю» — машину, яку ми називаємо GPU, і вона може видавати чарівні результати. Він змінює все, і ми є свідками народження «фабрик ШІ».

Цю зміну можна назвати новою промисловою революцією. Ми ніколи не відчували подібних змін у минулому, але зараз вони повільно розкриваються перед нами. Не пропустіть наступні десять років, тому що за ці десять років ми створимо величезну продуктивність. Маятник часу прийшов у рух, і наші дослідники вже вживають заходів.

Сьогодні ми запросили творців Tansformer обговорити, куди нас приведе генеративний ШІ в майбутньому.

вони є:

Ашиш Васвані: Приєднався до команди Google Brain у 2016 році. У квітні 2022 року він разом із Нікі Пармар заснував Adept AI, у грудні того ж року залишив компанію та став співзасновником іншого стартапу зі штучного інтелекту Essential AI.

Нікі Пармар: працювала в Google Brain протягом чотирьох років, перш ніж разом із Ашішем Васвані заснувати Adept AI та Essential AI.

Якоб Ушкорейт: Працював у Google з 2008 по 2021 рік. У 2021 році він залишив Google і став співзасновником Inceptive. Основним напрямком діяльності компанії є наука про життя зі штучним інтелектом, і вона прагне використовувати нейронні мережі та високопродуктивні експерименти для розробки наступного покоління молекул РНК.

Ілля Полосухін: Приєднався до Google у 2014 році і одним із перших покинув команду з восьми осіб, у 2017 році став співзасновником блокчейн-компанії NEAR Protocol.

Ноам Шазір: працював у Google з 2000 по 2009 рік і з 2012 по 2021 рік. У 2021 році Шазір покинув Google і разом із колишнім інженером Google Даніелем Де Фрейтасом заснував Character.AI.

**Llion Jones: **Працював у Delcam і YouTube. Приєднався до Google у 2012 році як інженер-програміст. Пізніше він залишив Google і заснував стартап зі штучного інтелекту sakana.ai.

Лукаш Кайзер: Колись дослідник Французького національного центру наукових досліджень. Приєднався до Google у 2013 році. У 2021 році він залишив Google і став дослідником OpenAI.

Ейдан Гомес: закінчив Університет Торонто, Канада. Коли була опублікована стаття Transformer, він усе ще був стажером у команді Google Brain. Він другий із команди з восьми осіб, який залишив Google. У 2019 році він став співзасновником Cohere.

![Хуан Реньсюнь розмовляє з сімома авторами статті Transformer: Ми потрапили в пастку оригінальної моделі і потребуємо більш потужної нової архітектури](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ e2cb0168e261ffba0c0ea67a5502acf8.png)

Renxun Huang: Коли я сиджу тут сьогодні, будь ласка, активно намагайтеся отримати можливість висловитися. Немає теми, яку б тут не можна було обговорити. Ви навіть можете підстрибнути зі стільця, щоб обговорити питання. Почнемо з найпростішого питання: з якими проблемами ви зіткнулися в той час і що надихнуло вас стати Трансформером?

Ілля Полосухін: Якщо ви хочете випускати моделі, які можуть реально читати результати пошуку, наприклад, обробляти купи документів, вам потрібні моделі, які можуть швидко обробляти цю інформацію. Рекурентна нейронна мережа (RNN) на той час не могла задовольнити такі потреби.

Дійсно, хоча рекурентні нейронні мережі (RNN) і деякі механізми попередньої уваги (Arnens) привернули увагу в той час, вони все ще вимагали читання слово за словом, що було неефективним.

Якоб Ушкорейт: Швидкість, з якою ми генеруємо навчальні дані, значно перевищує нашу здатність навчати найсучасніші архітектури. Насправді ми використовуємо простіші архітектури, такі як мережі прямого зв’язку з n-грамами як вхідними функціями. Ці архітектури часто перевершують більш складні та просунуті моделі, оскільки вони навчаються швидше, принаймні на великих обсягах навчальних даних у масштабі Google.

Потужні RNN на той час, особливо мережі довготривалої короткочасної пам'яті (LSTM), вже існували.

Ноам Шазір: Здається, це гостра проблема. Ми почали помічати ці закони масштабування приблизно в 2015 році, і ви бачите, що зі збільшенням розміру моделі зростає і її інтелект. Це як найкраща проблема в історії світу, дуже проста: ви просто передбачаєте наступний токен, і він буде настільки розумним і здатним робити мільйон різних речей, і ви просто хочете збільшити його масштаб і зробити це краще.

Велике розчарування полягає в тому, що RNN надто складно працювати. А потім я випадково почув, як ці хлопці говорили про те, давайте замінимо це згорткою або механізмом уваги. Я подумав, чудово, давай це зробимо. Мені подобається порівнювати Transformer із переходом від парових двигунів до двигунів внутрішнього згоряння. Ми могли б завершити промислову революцію за допомогою парових двигунів, але це було б болісно, а двигун внутрішнього згоряння зробив усе краще.

Ашиш Васвані: Я почав отримувати важкі уроки під час навчання в аспірантурі, особливо коли працював над машинним перекладом. Я зрозумів, що я не збираюся вивчати ці складні правила мови. Я вважаю, що Gradient Descent — спосіб, яким ми навчаємо цих моделей — кращий вчитель, ніж я. Тому я не збираюся вивчати правила, я просто дозволю Gradient Descent зробити всю роботу за мене, і це мій другий урок.

Те, що я дізнався на своєму досвіді, так це те, що загальні архітектури, які можна масштабувати, зрештою переможуть у довгостроковій перспективі. Сьогодні це можуть бути маркери, завтра це можуть бути дії, які ми виконуємо на комп’ютерах, і вони почнуть імітувати нашу діяльність і зможуть автоматизувати багато роботи, яку ми виконуємо. Як ми обговорювали, Transformer, особливо його механізм самоуважності, має дуже широке застосування, а також покращує градієнтний спуск. Інша річ — фізика, тому що одну річ, яку я навчився від Ноама, це те, що множення матриць — хороша ідея.

Ноам Шазір: Ця модель постійно повторюється. Тож кожного разу, коли ви додаєте купу правил, градієнтний спуск в кінцевому підсумку краще вивчає ці правила, ніж ви. Це воно. Подібно до глибокого навчання, яке ми проводили, ми створюємо модель ШІ у формі графічного процесора. І зараз ми створюємо модель ШІ у формі суперкомп’ютера. Так, моделлю зараз є суперкомп’ютери. Так, це правда. Так. Суперкомп’ютер Щоб повідомити вам, ми створюємо суперкомп’ютер у формі моделі.

** Jen-Hsun Huang: Отже, яку проблему ви намагаєтеся вирішити? **

Лукаш Кайзер: Машинний переклад. Згадуючи п’ять років тому, цей процес здавався дуже складним. Треба було зібрати дані, можливо, перекласти їх, і результат міг бути лише незначно правильним. Рівень на той час був ще дуже базовим. Але тепер ці моделі можуть навчитися перекладати навіть без даних. Ви просто надаєте одну мову та іншу мову, і модель навчиться перекладати самостійно, і ця здатність приходить природним і задовільним.

Лліон Джонс: Але все, що вам потрібно, — це інтуїція «Увага». Тож я придумав цю назву, і в основному те, що сталося, коли ми шукали назву.

Ми просто робили абляцію і почали викидати шматочки моделі, щоб побачити, чи не стане гірше. На наш подив, стало краще. Набагато краще викинути всі згортки, як це. Ось звідки і назва.

Ашіш Васвані: В основному, що цікаво, це те, що ми фактично почали з дуже простого фреймворку, а потім додали речі, ми додали згортки, а потім, я думаю, ми їх забрали. Є також багато інших дуже важливих речей, таких як увага кількох голов.

** Дженсен Хуан: Хто придумав назву Трансформер? Чому він називається трансформер? **

Якоб Ушкорейт: Нам подобається це ім’я. Ми просто підібрали його випадковим чином і подумали, що воно дуже креативне. Воно змінило нашу модель виробництва даних і використало таку логіку. Будь-яке машинне навчання є трансформатором і руйнівником.

Ноам Шазір: Ми не думали про це ім'я раніше. Я думаю, що це ім'я дуже просте, і багато людей думають, що це ім'я дуже гарне. Раніше я думав про багато імен, наприклад Yaakov, і врешті зупинився на "Трансформатор", який описує принцип моделі. Він фактично перетворює весь сигнал. Згідно з цією логікою, майже все машинне навчання буде трансформовано.

Llion Jones: Причина, чому Transformer стала такою знайомою назвою, полягає не лише через зміст перекладу, а й тому, що ми хотіли описати цю трансформацію більш загально. Я не думаю, що ми виконали велику роботу, але як виробник змін, як пілот і двигун, це мало сенс. Кожен може зрозуміти таку велику мовну модель, механізм і логіку.З точки зору архітектури, це відносно ранній початковий період.

Але ми усвідомлювали, що насправді намагалися створити щось дуже, дуже універсальне, що справді могло перетворити будь-що на що завгодно. І я не думаю, що ми передбачили, наскільки добре це буде насправді, коли Трансформери використовувалися для зображень, що трохи дивно. Це може здатися вам логічним, але насправді ви можете розділити зображення на частини та позначити кожну маленьку крапку. Я думаю, що це було те, що існувало дуже рано в архітектурі.

Отже, коли ми створювали бібліотеки від тензора до тензора, ми справді зосереджувалися на розширенні авторегресійного навчання. Це не тільки мова, а й зображення, звукові компоненти.

Тож Лукаш сказав, що він займається перекладами. Я думаю, що він недооцінив себе, і всі ці ідеї, зараз ми починаємо бачити, як ці шаблони об’єднуються, усі вони доповнюють модель.

Але насправді все було там на початку, і ідеї просочуються, і це потребує деякого часу. Мета Лукаша полягає в тому, щоб ми мали всі ці академічні набори даних, які йдуть від зображення до тексту, тексту до зображення, аудіо до тексту, тексту до тексту. Ми повинні тренуватися для всього.

Ця ідея справді спонукала роботу над розширенням, і зрештою вона спрацювала, і це було настільки цікаво, що ми могли перекладати зображення в текст, текст у зображення та текст у текст.

Ви використовуєте його для вивчення біології або біологічного програмного забезпечення, яке може бути схоже на комп’ютерне програмне забезпечення тим, що воно починається як програма, а потім компілюється в щось, що може працювати на GPU.

Життя біологічного програмного забезпечення починається зі специфікації певної поведінки. Скажімо, ви хочете надрукувати білок, як певний білок у клітині. А потім ви навчилися використовувати глибоке навчання, щоб перетворити це на молекулу РНК, але насправді виявляти таку поведінку, коли вона потрапляє у ваші клітини. Отже, ідея полягає не лише в перекладі англійською мовою.

**Дженсен Хуанг: Ви створили велику лабораторію для виробництва всього цього? **

Ейдан Гомес: Багато що доступно і фактично залишається загальнодоступним, оскільки ці дані часто все ще в основному фінансуються державою. Але насправді вам все одно потрібні дані, щоб чітко проілюструвати явище, якого ви намагаєтеся досягти.

Намагаючись змоделювати в певному продукті, скажімо, експресію білка та мРНК-вакцини тощо, або так, у Пало-Альто у нас є купа роботів і людей у лабораторних халатах, обидва дослідники, які навчаються, включаючи колишніх біологів.

Зараз ми вважаємо себе піонерами чогось нового, ми працюємо над тим, щоб фактично створити ці дані та перевірити моделі, які проектують ці молекули. Але початкова ідея була перекласти.

** Jen-Hsun Huang: Початковою ідеєю був машинний переклад. Я хочу запитати, які ключові вузли можна побачити у зміцненні та прориві архітектури? І який вплив вони мають на дизайн Трансформера? **

Ейдан Гомес: До речі, ви всі це бачили. Як ви думаєте, чи справді існує великий додатковий внесок у базовий дизайн Transformer? Я думаю, що з точки зору висновків, було багато роботи, щоб пришвидшити ці моделі та зробити їх більш ефективними.

Мені все ще здається, що це трохи непокоїть мене через те, наскільки схожими були наші оригінальні форми. Я думаю, що світові потрібне щось краще, ніж Transformer, і я думаю, що всі ми тут хочемо, щоб його замінили чимось, що виведе нас на новий рівень продуктивності.

Я хочу задати кожному тут питання. Як ви думаєте, що буде далі? Ніби це захоплюючий крок, тому що я думаю, що він дуже схожий на речі 6-7 років тому, чи не так?

Llion Jones: Так, я думаю, люди були б здивовані, наскільки це схоже, як ви сказали, так? Люди люблять запитувати мене, що буде далі, тому що я автор цієї статті. Немов за помахом чарівної палички, ви махнете чарівною паличкою, і що відбувається далі? Я хочу звернути увагу на те, як був розроблений цей конкретний принцип. Нам потрібно бути не тільки кращими, але й демонстративно кращими.

Тому що якщо це лише трохи краще, то цього недостатньо, щоб підштовхнути всю галузь ШІ до чогось нового. Тож ми залишилися на оригінальній моделі, хоча технічно це, ймовірно, не найпотужніша річ, яку ми маємо зараз.

Але всі знають, які персональні інструменти вони хочуть, вам потрібні кращі контекстні вікна, вам потрібна можливість генерувати токени швидше. Що ж, я не впевнений, чи подобається вам ця відповідь, але зараз вони використовують занадто багато обчислювальних ресурсів. Я думаю, що люди роблять багато марних розрахунків. Ми наполегливо працюємо над підвищенням ефективності, дякуємо.

** Дженсен Хуанг: Я думаю, ми робимо це ефективнішим, дякую! **

Якоб Ушкорейт: Але я думаю, що головним чином це залежить від того, як розподіляються ресурси, а не від того, скільки ресурсів спожито загалом. Наприклад, ми не хочемо витрачати занадто багато грошей на легку проблему або витрачати занадто мало на надто складну проблему і в кінцевому підсумку не отримати рішення.

Ілля Полосухін: Цей приклад як 2+2, якщо його правильно закласти в цю модель, то він використовує трильйон параметрів. Тож я вважаю, що адаптивні обчислення – це одна з речей, яка має бути наступною, де ми знаємо, скільки обчислювальних ресурсів потрібно витратити на конкретну проблему.

Ейдан Гомес: Ми знаємо, які можливості для створення комп’ютерів у нас зараз є. Я думаю, що це наступне питання, на якому потрібно зосередитися. Я думаю, що це зміна космічного рівня, і це також тенденція майбутнього розвитку.

Лукаш Кайзер: Ця концепція існувала до Transformer, і вона була інтегрована в модель Transformer. Насправді, я не впевнений, що всі тут знають, що ми не досягли нашої початкової мети.Нашим початковим наміром, починаючи цей проект, було змоделювати процес еволюції Token. Це не просто лінійний процес генерації, а поетапна еволюція тексту або коду. Ми повторюємо, редагуємо, що дає нам змогу не лише імітувати те, як люди створюють тексти, але й використовувати їх як частину цього процесу. Тому що, якби ви могли створювати вміст так само природно, як це роблять люди, вони б справді могли надавати зворотний зв’язок, чи не так?

Усі ми читали статтю Шеннона, і наша початкова ідея полягала в тому, щоб зосередитися лише на моделюванні мови та збентеженні, але цього не сталося. Я думаю, що тут ми також можемо розвиватися далі. Це також про те, як ми тепер розумно організовуємо обчислювальні ресурси, і ця організація тепер також стосується обробки зображень. Я маю на увазі, що дифузійні моделі мають цікаву властивість постійно вдосконалювати та покращувати свою якість шляхом повторення. А ми наразі не маємо таких можливостей.

Я маю на увазі це фундаментальне питання: які знання мають бути вбудовані в модель, а які знання мають бути поза нею? Ви використовуєте модель пошуку? Прикладом є модель RAG (Retri-Augmented Generation). Подібним чином, це також стосується питання логічного висновку, тобто які завдання логічного висновку слід виконувати зовні через символічні системи, а які завдання логічного висновку слід виконувати безпосередньо в моделі. Це в основному дискусія про ефективність. Я справді вірю, що великі моделі з часом навчаться робити обчислення на кшталт 2+2, але якщо ви хочете обчислити 2+2 і зробити це шляхом додавання чисел, це явно неефективно.

** Jen-Hsun Huang: Якщо штучному інтелекту потрібно лише обчислити 2+2, він повинен використовувати калькулятор безпосередньо для виконання цього завдання з найменшими витратами енергії, тому що ми знаємо, що калькулятор є найефективнішим інструментом для виконуючи обчислення 2+2. Однак, якщо хтось запитає ШІ, як ви прийшли до рішення 2+2? Чи знаєте ви, що правильна відповідь 2+2? Чи буде це споживати багато ресурсів? **

![Хуан Реньсюнь розмовляє з сімома авторами статті Transformer: Ми потрапили в пастку оригінальної моделі і потребуємо більш потужної нової архітектури](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ 943398d349cf0e17db81b1469281b267.png)

Ноам Шазір: Саме так. Ви згадали приклад раніше, але я також переконаний, що системи штучного інтелекту, які всі тут розробляють, достатньо розумні, щоб активно використовувати калькулятори.

Глобальні суспільні блага (GPP) зараз роблять саме це. Я вважаю, що поточна модель занадто доступна і занадто мала. Причина, чому він дешевий, полягає в технології, як-от NV, завдяки його виходу.

Обчислювальна вартість однієї операції становить приблизно від 10 до 18 доларів США. Іншими словами, приблизно такого порядку. Дякуємо за створення такої кількості обчислювальних ресурсів. Але якщо ви подивитеся на модель з 500 мільярдами параметрів і одним трильйоном обчислень на токен, це приблизно долар за мільйон токенів, що в 100 разів дешевше, ніж піти, купити книгу в м’якій палітурці та прочитати її. Наша програма в мільйони разів цінніша за ефективні обчислення на гігантських нейронних мережах. Я маю на увазі, що вони, звичайно, цінніші, ніж лікування раку, але це більше.

Ашіш Васвані: Я думаю, що зробити світ розумнішим означає, як отримувати зворотний зв’язок зі світом і чи можемо ми досягти багатозадачності та багаторядкового розпаралелювання. Якщо ви дійсно хочете створити таку модель, це чудовий спосіб допомогти нам розробити таку модель.

** Дженсен Хуанг: Чи можете ви швидко розповісти, чому ви заснували свою компанію? **

Ашіш Васвані: У нашій компанії ми ставимо за мету будувати моделі та вирішувати нові завдання. Наша робота полягає в тому, щоб зрозуміти цілі та зміст завдання та адаптувати цей зміст до потреб клієнта. Насправді, починаючи з 2021 року, я вважаю, що найбільша проблема з моделями полягає в тому, що ви не можете просто зробити моделі розумнішими, вам також потрібно знайти правильних людей для інтерпретації цих моделей. Ми сподіваємося зробити так, щоб світ і модель переплелися, зробивши модель більшою та видатнішою. У процесі навчання потрібен певний прогрес, який неможливо досягти спочатку у вакуумному середовищі лабораторії.

Ноам Шазір: У 2021 році ми заснували цю компанію. У нас є такі чудові технології, але вони не охоплюють багатьох людей. Уявіть собі, якби я був пацієнтом, почувши, що ви це говорите, я б подумав, що існують десятки мільярдів людей, які мають виконувати різні завдання. Це те, про що глибоке навчання, ми вдосконалюємо технології через порівняння. Фактично, через постійний розвиток технологій, яким керує Дженсен Хуанг, наша кінцева мета — допомогти людям у всьому світі. Ви повинні протестувати, і зараз нам потрібно розробити швидші рішення, які дозволять сотням людей використовувати ці програми. Як і спочатку, не всі використовували ці програми, багато людей використовували їх просто для розваги, але вони працювали, вони працювали.

Якоб Ушкорейт: Дякую. Я хочу розповісти про систему екологічного програмного забезпечення, яку ми створили. У 2021 році я став співзасновником цієї компанії, і наша мета — вирішити деякі проблеми з реальним науковим впливом. Раніше ми мали справу з досить складним контентом. Але коли я народила першу дитину, моє бачення світу змінилося. Ми сподіваємося зробити життя людини зручнішим і зробити внесок у дослідження білка. Особливо після народження дітей я сподіваюся змінити існуючу медичну структуру та сподіваюся, що розвиток науки та технологій може мати позитивний вплив на виживання та розвиток людини. Наприклад, певною мірою вплинули на структуру та деконструкцію білка, але наразі нам бракує даних. Ми повинні базувати свої зусилля на даних не лише як обов’язок, але й як батько.

** Jen-Hsun Huang: Мені подобається ваша точка зору. Мене завжди цікавить розробка нових ліків і процес, за допомогою якого комп’ютери навчаються розробляти та створювати нові ліки. Якби можна було вивчити та розробити нові ліки, а лабораторія могла б перевірити їх, можна було б визначити, чи працюватиме така модель. **

Llion JonesLlion Jones: Так, я останній, хто поділився. Компанія, яку ми заснували, називається Sakana AI, що означає «риба». Причина, чому ми назвали нашу компанію на честь японського слова «риба», полягає в тому, що ми схожі на зграю риб, яка природним чином надихає нас шукати інтелект. Якщо ми зможемо поєднати багато розглянутих елементів, ми зможемо створити щось складне і красиве. Багато хто може не розуміти специфіки процесу та змісту, але нашою внутрішньою основною філософією є «Навчання завжди виграє».

Незалежно від того, чи хочете ви вирішити проблему чи хочете чомусь навчитися, навчання завжди допоможе вам перемогти. У процесі генеративного ШІ навчальний контент також допоможе нам перемогти. Як присутній дослідник, я хотів би нагадати всім, що ми надаємо справжнє значення моделям комп’ютерного штучного інтелекту, щоб вони дійсно могли допомогти нам зрозуміти таємниці Всесвіту. Насправді, я також хотів сказати вам, що ми збираємося оголосити нову розробку, якій ми дуже раді. Незважаючи на те, що зараз ми маємо масив досліджень як будівельний блок, ми переживаємо трансформаційний розвиток, коли поточне управління моделлю організовано та дозволяє людям справді залучатися. Ми робимо ці моделі більш здійсненними, використовуючи ці великомасштабні моделі та трансформаційні моделі, щоб змінити те, як люди розуміють світ і Всесвіт. це наша мета.

Ейдан Гомес: Мій початковий намір створити компанію був подібний до наміру Ноама Шазіра. Я думаю, що комп’ютерна техніка входить у нову парадигму, яка змінює існуючі продукти та спосіб нашої роботи. Все базується на комп’ютері, і це певною мірою змінюється в межах технології. Яка наша роль? Я насправді долаю розрив, долаю прірву. Ми бачимо, як різні компанії створюють такі платформи, що дозволяє кожній компанії адаптувати та інтегрувати продукти, що є способом прямого спілкування з користувачами. Таким чином ми вдосконалюємо технологію та робимо її доступнішою та повсюдною.

** Дженсен Хуанг: Я особливо ціную те, що коли Ноам Шазір виглядає особливо спокійним, ти виглядаєш дуже схвильованим. Різниця у ваших характерах така разюча. А тепер я надаю слово Лукашу Кайзеру. **

Лукаш Кайзер: Мій досвід роботи з OpenAI був дуже руйнівним. У компанії дуже весело, і ми обробляємо багато даних, щоб робити обчислення, але, зрештою, я все ще виконуємо роль обробляча даних.

Ілля Полосухін: Я пішов першим. Я твердо вірю, що ми досягнемо значного прогресу, а програмне забезпечення змінить увесь світ. Найпряміший шлях — навчити машини писати код і зробити програмування доступним для всіх.

У NEAR, незважаючи на те, що наш прогрес обмежений, ми прагнемо інтегрувати людську мудрість і отримувати відповідні дані, наприклад, надихнути людей усвідомити, що нам потрібна базова методологія. Ця модель є фундаментальною розробкою. Ця велика модель широко використовується в усьому світі. Вона має багато застосувань в аерокосмічній та інших сферах. Вона пов’язана з комунікацією та взаємодією в різних сферах і насправді надає нам можливості. З поглибленням використання ми виявили, що це принесло більше моделей, і наразі не так багато суперечок щодо авторських прав.

Зараз ми перебуваємо в новій генераційній епосі, ері, яка прославляє інновації та інноваторів, і ми хочемо брати активну участь і сприймати зміни, тому ми шукали різні способи, щоб допомогти побудувати дійсно круту модель.

** Дженсен Хуан: Ця система позитивного відгуку дуже корисна для нашої загальної економіки. Тепер ми краще можемо будувати нашу економіку. Хтось запитав, у цю епоху, коли моделі GPT навчають мільярди баз даних у масштабі токенів, який наступний крок? Якою буде нова технологія моделювання? Що ви хочете дослідити? Яке ваше джерело даних? **

Ілля Полосухін: Ми виходимо з векторів і переміщень. Нам потрібні моделі, які мають реальну економічну цінність, які люди можуть оцінити та в кінцевому підсумку застосувати ваші методи та інструменти на практиці, щоб зробити всю модель кращою.

** Jen-Hsun Huang: Як ви тренуєте модель? Якими були початкові взаємодії та моделі взаємодії? Це спілкування та взаємодія між моделями? Або існують генеративні моделі та техніки? **

Ілля Полосухін: У нашій команді кожен має свою технічну експертизу.

Якоб Ушкорейт: Наступним кроком є міркування. Ми всі усвідомлюємо важливість аргументації, але багато роботи все ще виконується інженерами вручну. Насправді ми вчимо їх відповідати в інтерактивному форматі запитань і відповідей, і сподіваємося, що вони разом зрозуміють, чому, і разом запропонують сильну модель міркування. Ми сподіваємося, що модель може генерувати потрібний нам вміст, і ми прагнемо до цього методу генерації. Будь то відео, текст чи 3D-інформація, усі вони мають бути інтегровані.

Лукаш Кайзер: Я думаю, чи розуміють люди, що висновок насправді виходить із даних? Якщо ми починаємо міркувати, у нас є набір даних, і ми думаємо, чому ці дані відрізняються? Потім ми дізнаємося, що різні додатки насправді засновані на процесі аргументації даних. Завдяки потужності комп’ютерів, завдяки таким системам, ми можемо почати розвиватися далі. Ми можемо міркувати про відповідний контент і проводити експерименти.

Багато разів вони отримуються з даних. Я думаю, що логічний висновок розвивається дуже швидко, моделі даних дуже важливі, і найближчим часом буде більше інтерактивного контенту. Ми ще не провели достатньо навчання, це не ключовий контент і елемент, нам потрібно зробити дані більш конкретизованими.

Ноам Шазір: Розробка деяких даних, наприклад розробка навчальної машини, може включати сотні чи сотні мільйонів різних токенів.

Ашіш Васвані: Я хочу підкреслити, що в цій сфері у нас є багато партнерів, які досягли певних віх. Який найкращий автоматизований алгоритм? Фактично, це розбити реальні завдання на різний вміст. Наша модель також дуже важлива, вона допомагає нам отримувати дані та перевіряти, чи вони в правильному місці. З одного боку, це допомагає нам зосередитися на даних; з іншого боку, такі дані дають нам високоякісні моделі для виконання абстрактних завдань. Тому ми вважаємо, що вимірювання цього прогресу також є способом творчості, шляхом наукового розвитку та шляхом нашого розвитку автоматизації.

** Jen-Hsun Huang: Ви не можете робити великі проекти без хорошої системи вимірювання. У вас є запитання один до одного? **

Ілля Полосухін: Ніхто особливо не хоче знати, які кроки вони зробили. Але насправді ми сподіваємося зрозуміти та вивчити те, що ми робимо, отримати достатньо даних та інформації та зробити розумні висновки. Наприклад, якщо у вас є шість кроків, але ви фактично можете пропустити один крок, обміркувавши п’ять кроків. Іноді вам не потрібні шість кроків, а іноді потрібно більше кроків, тож як відтворити такий сценарій? Що вам потрібно, щоб рухатися далі від Token?

Лукаш Кайзер: Я особисто переконаний, що відтворення такої великої моделі є дуже складним процесом. Системи розвиватимуться, але по суті вам потрібно розробити метод. Люди — це істоти, які вміють повторюватися. Протягом історії людства ми неодноразово відтворювали вдалі сцени.

** Jen-Hsun Huang: Я дуже радий спілкуватися з вами, і я сподіваюся, що у вас буде можливість спілкуватися один з одним і творити невимовну магію. Дякуємо за участь у цій зустрічі, щиро дякую! **

Переглянути оригінал
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
Немає коментарів