Хуан Жэньсюнь беседует с семью авторами статьи «Трансформер»: «Мы попали в ловушку исходной модели и нуждаемся в более мощной новой архитектуре»

![Хуан Ренсюнь беседует с семью авторами статьи «Трансформер»: Мы попали в ловушку исходной модели и нуждаемся в более мощной новой архитектуре](https://cdn-img.panewslab.com//panews/2022/3/23 /изображения/ 3209736c2376bc78f33a30e387cc4e77.jpeg)

Автор: Го Сяоцзин

Источник: Новости Tencent

В 2017 году была опубликована знаковая статья «Внимание — это все, что вам нужно». В ней впервые была представлена модель Transformer, основанная на механизме самообслуживания. Эта инновационная архитектура избавила от ограничений традиционных RNN и CNN. Благодаря механизму параллельной обработки внимания эффективно преодолевается проблема зависимости от больших расстояний и значительно повышается скорость обработки последовательных данных. Структура кодера-декодера Transformer и многоголовочный механизм внимания вызвали бурю в области искусственного интеллекта.На этой архитектуре построен популярный ChatGPT.

Представьте, что модель Трансформера похожа на то, как ваш мозг разговаривает с другом, обращая внимание на каждое слово, которое другой человек говорит одновременно, и понимая связи между этими словами. Это дает компьютерам возможности понимания языка, подобные человеческому. До этого RNN был основным методом обработки языка, но скорость обработки информации была низкой, как у старомодного магнитофона, который приходилось воспроизводить слово в слово. Модель Transformer подобна эффективному ди-джею, способному одновременно управлять несколькими треками и быстро захватывать ключевую информацию.

Появление модели Transformer значительно улучшило способность компьютеров обрабатывать язык, делая такие задачи, как машинный перевод, распознавание речи и обобщение текста, более эффективными и точными.Это огромный скачок для всей отрасли.

Это нововведение стало результатом совместных усилий восьми ученых в области искусственного интеллекта, ранее работавших в Google. Их первоначальная цель была проста: улучшить службу машинного перевода Google. Они хотят, чтобы машины могли полностью понимать и читать целые предложения, а не переводить их слово в слово изолированно. Эта концепция стала отправной точкой архитектуры «Трансформер» — механизма «самовнимания». Исходя из этого, эти восемь авторов использовали свой опыт и опубликовали в декабре 2017 года статью «Внимание — это все, что вам нужно», подробно описывающую архитектуру Transformer и открывающую новую главу в генеративном искусственном интеллекте.

В мире генеративного искусственного интеллекта закон масштабирования является основным принципом. Короче говоря, по мере увеличения масштаба модели Transformer увеличивается и ее производительность, но это также означает, что для поддержки более крупных моделей и более глубоких сетей необходимы более мощные вычислительные ресурсы, а также требуются высокопроизводительные вычислительные сервисы. NVIDIA также стала ключевой игрок в этой волне ИИ.

На конференции GTC в этом году Дженсен Хуан из Nvidia пригласил семь авторов «Трансформера» (Ники Пармар по какой-то причине временно не смогла присутствовать) принять участие в дискуссии за круглым столом в торжественной форме. публично обсуждать свою работу.Появление группы.

Во время разговора они также высказали несколько впечатляющих замечаний:

  • Миру нужно что-то лучшее, чем Трансформер, и я думаю, что все мы здесь надеемся, что его заменит что-то, что выведет нас на новый уровень производительности.
  • Нам не удалось достичь нашей первоначальной цели. Нашей первоначальной целью запуска Transformer было моделирование процесса эволюции токена. Это не просто линейный процесс генерации, а пошаговая эволюция текста или кода.
  • Простые задачи, такие как 2+2, которые могут использовать триллионы ресурсов параметров больших моделей. Я думаю, что адаптивные вычисления — это одна из следующих вещей, которые должны произойти, когда мы знаем, сколько вычислительных ресурсов следует потратить на конкретную проблему.
  • Я думаю, что текущая модель слишком доступна и слишком мала.Цена около 1 миллиона долларов в 100 раз дешевле, чем пойти и купить книгу в мягкой обложке.

Фактическое содержание ниже:

Дженсен Хуанг: За последние шестьдесят лет компьютерные технологии, похоже, не претерпели фундаментальных изменений, по крайней мере, с момента моего рождения. Компьютерные системы, которые мы в настоящее время используем, будь то многозадачность, разделение аппаратного и программного обеспечения, совместимость программного обеспечения, возможности резервного копирования данных и навыки программирования инженеров-программистов, в основном основаны на принципах проектирования IBM 360 - Central Processor, Bio. подсистема, многозадачность, аппаратное и программное обеспечение, совместимость программных систем и т. д.

Я не думаю, что современные компьютеры фундаментально изменились с 1964 года. Хотя в 1980-х и 1990-х годах компьютеры претерпели серьезную трансформацию и приобрели ту форму, с которой мы знакомы сегодня. Но с течением времени предельные издержки компьютеров продолжают снижаться, снижая их стоимость в десять раз каждые десять лет, в тысячу раз через пятнадцать лет и в десять тысяч раз через двадцать лет. В ходе этой компьютерной революции снижение затрат было настолько значительным, что за два десятилетия стоимость компьютеров упала почти в 10 000 раз.

Попробуйте представить, если бы все дорогие вещи в вашей жизни были уменьшены до одной десятитысячной их первоначальной стоимости. Например, автомобиль, который вы купили за 200 000 долларов двадцать лет назад, теперь стоит всего 1 доллар. Можете ли вы представить себе это изменение? Однако снижение стоимости компьютеров не произошло в одночасье, а постепенно достигло критической точки, а затем тенденция снижения стоимости внезапно прекратилась.

Мы начали изучать ускоренные вычисления, но использовать ускоренные вычисления непросто. Вам нужно разрабатывать их постепенно, с нуля. В прошлом мы могли следовать установленным шагам для решения проблемы шаг за шагом, но теперь нам нужно перепроектировать эти шаги. Это совершенно новая область науки, переформулирующая предыдущие правила в параллельные алгоритмы.

Мы признаем это и считаем, что если мы сможем ускорить хотя бы 1% кода и сэкономить 99% времени выполнения, то найдутся приложения, которые от этого выиграют. Наша цель — сделать невозможное возможным, или сделать возможное невозможным, или сделать то, что уже возможно, более эффективным.

Оглядываясь назад на историю компании, мы видим нашу способность ускорять самые разные приложения. Изначально мы добились значительного ускорения в игровой сфере, настолько эффективного, что люди ошибочно приняли нас за игровую компанию. Но на самом деле наша цель гораздо больше, потому что этот рынок огромен и достаточно велик, чтобы стимулировать невероятный технологический прогресс. Такая ситуация не является распространенной, но мы обнаружили особый случай.

Короче говоря, в 2012 году AlexNet зажег искру, которая стала первым столкновением между искусственным интеллектом и графическими процессорами NVIDIA. Это знаменует начало нашего удивительного путешествия в этой области. Несколько лет спустя мы обнаружили идеальный сценарий применения, который заложил основу того, где мы находимся сегодня.

Короче говоря, эти достижения закладывают основу для развития генеративного искусственного интеллекта. Генеративный ИИ может не только распознавать изображения, но и преобразовывать текст в изображения и даже создавать совершенно новый контент. Теперь у нас достаточно технических возможностей, чтобы понимать пиксели, идентифицировать их и понимать смысл, стоящий за ними. Благодаря смыслу, стоящему за ними, мы можем создавать новый контент. Способность искусственного интеллекта понимать значение данных — это огромное изменение.

У нас есть основания полагать, что это начало новой промышленной революции. В этой революции мы создаем то, чего никогда раньше не делалось. Например, во время предыдущей промышленной революции вода была источником энергии, и вода поступала в созданные нами устройства, и начинали работать генераторы, приходила вода и выходило электричество, как по волшебству.

Генеративный ИИ — это совершенно новое «программное обеспечение», способное создавать программное обеспечение, основанное на совместных усилиях многих ученых. Представьте, что вы даете ИИ сырье — данные, и они входят в «здание» — машину, которую мы называем графическим процессором, и она может выдавать волшебные результаты. Он меняет все, и мы являемся свидетелями рождения «фабрик ИИ».

Это изменение можно назвать новой промышленной революцией. Раньше мы никогда не переживали подобных перемен, но теперь они медленно разворачиваются перед нами. Не пропустите следующие десять лет, потому что за эти десять лет мы создадим огромную производительность. Маятник времени пришел в движение, и наши исследователи уже принимают меры.

Сегодня мы пригласили создателей Tansformer обсудить, куда нас приведет генеративный искусственный интеллект в будущем.

они есть:

Ашиш Васвани: присоединился к команде Google Brain в 2016 году. В апреле 2022 года он вместе с Ники Пармар основал Adept AI, покинул компанию в декабре того же года и стал соучредителем еще одного стартапа в области искусственного интеллекта — Essential AI.

Ники Пармар: четыре года работала в Google Brain, прежде чем вместе с Ашишем Васвани стать соучредителем Adept AI и Essential AI.

Якоб Ушкорейт: Работал в Google с 2008 по 2021 год. Он покинул Google в 2021 году и стал соучредителем Inceptive.Основным бизнесом компании является искусственный интеллект в области биологических наук, и она стремится использовать нейронные сети и высокопроизводительные эксперименты для разработки молекул РНК следующего поколения.

Илья Полосухин: Присоединился к Google в 2014 году и был одним из первых, кто ушел из команды из восьми человек. В 2017 году он стал соучредителем блокчейн-компании NEAR Protocol.

Ноам Шазир: работал в Google с 2000 по 2009 год и с 2012 по 2021 год. В 2021 году Шазир покинул Google и вместе с бывшим инженером Google Дэниелом Де Фрейтасом стал соучредителем Feature.AI.

**Лайон Джонс: **Работал в Delcam и YouTube. Присоединился к Google в 2012 году в качестве инженера-программиста. Позже он покинул Google и основал стартап по искусственному интеллекту sakana.ai.

Лукаш Кайзер: Ранее работал исследователем во Французском национальном центре научных исследований. Присоединился к Google в 2013 году. В 2021 году он покинул Google и стал исследователем в OpenAI.

Эйдан Гомес: окончил Университет Торонто, Канада. На момент публикации статьи «Трансформер» он еще был стажером в команде Google Brain. Он второй человек из команды из восьми человек, покинувший Google. В 2019 году он стал соучредителем Cohere.

![Хуан Ренсюнь беседует с семью авторами статьи «Трансформер»: Мы застряли в исходной модели и нуждаемся в более мощной новой архитектуре](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ e2cb0168e261ffba0c0ea67a5502acf8.png)

Жэньсюнь Хуан: Пока я сижу здесь сегодня, пожалуйста, активно стремитесь к возможности высказаться. Здесь нет темы, которую нельзя было бы обсудить. Вы даже можете вскочить со стула, чтобы обсудить проблемы. Начнем с самого основного вопроса: с какими проблемами вы столкнулись в то время и что вдохновило вас стать Трансформером?

Илья Полосухин: Если вы хотите выпустить модели, которые действительно смогут читать результаты поиска, например, обрабатывать стопки документов, вам нужны модели, которые смогут быстро обрабатывать эту информацию. Рекуррентная нейронная сеть (РНС) в то время не могла удовлетворить такие потребности.

Действительно, хотя рекуррентные нейронные сети (RNN) и некоторые механизмы предварительного внимания (Arnens) привлекли в то время внимание, они все равно требовали чтения слово за словом, что было неэффективно.

Якоб Ушкорейт: Скорость, с которой мы генерируем обучающие данные, намного превосходит наши возможности обучения современных архитектур. На самом деле мы используем более простые архитектуры, такие как сети прямой связи с n-граммами в качестве входных функций. Эти архитектуры часто превосходят более сложные и продвинутые модели, поскольку они обучаются быстрее, по крайней мере, на больших объемах обучающих данных в масштабе Google.

В то время уже существовали мощные RNN, особенно сети с длинной краткосрочной памятью (LSTM).

Ноам Шазир: Кажется, это животрепещущая проблема. Мы начали замечать эти законы масштабирования примерно в 2015 году, и вы можете видеть, что с увеличением размера модели увеличивается и ее интеллект. Это как лучшая задача в мировой истории, очень простая: вы просто предсказываете следующий токен, и он будет таким умным и способным делать миллион разных вещей, и вы просто хотите его масштабировать и сделать его лучше.

Огромное разочарование заключается в том, что с RNN слишком сложно справиться. А потом я услышал, как эти ребята говорили: «Эй, давайте заменим это сверткой или механизмом внимания». Я подумал: отлично, давай сделаем это. Мне нравится сравнивать Трансформатор с переходом от паровых двигателей к двигателям внутреннего сгорания. Мы могли бы завершить промышленную революцию с помощью паровых двигателей, но это было бы болезненно, а двигатель внутреннего сгорания все сделал лучше.

Ашиш Васвани: Я начал усваивать некоторые тяжелые уроки еще во время учебы в аспирантуре, особенно когда работал над машинным переводом. Я понял: эй, я не собираюсь учить эти сложные правила языка. Я думаю, что градиентный спуск — способ, которым мы обучаем эти модели, — лучший учитель, чем я. Так что я не собираюсь изучать правила, я просто позволю Gradient Descent сделать всю работу за меня, и это мой второй урок.

На собственном горьком опыте я усвоил, что общие архитектуры, способные масштабироваться, в конечном итоге одержат победу в долгосрочной перспективе. Сегодня это могут быть токены, завтра — действия, которые мы выполняем на компьютерах, и они начнут имитировать нашу деятельность и смогут автоматизировать большую часть нашей работы. Как мы уже говорили, Transformer, особенно его механизм самообслуживания, имеет очень широкое применение, а также улучшает градиентный спуск. Другое дело — физика, потому что от Ноама я узнал одну вещь: умножение матриц — хорошая идея.

Ноам Шазир: Эта ситуация повторяется постоянно. Поэтому каждый раз, когда вы добавляете кучу правил, градиентный спуск усваивает эти правила лучше, чем вы. Вот и все. Как и в случае с глубоким обучением, мы создаем модель ИИ в форме графического процессора. И теперь мы создаем модель ИИ в форме суперкомпьютера. Да, суперкомпьютеры сейчас являются моделью. Да, это правда. Да. Суперкомпьютер Чтобы вы знали: мы строим суперкомпьютер в форме модели.

** Дженсен Хуан: Так какую проблему вы пытаетесь решить? **

Лукаш Кайзер: Машинный перевод. Если вспомнить пять лет назад, этот процесс казался очень сложным: нужно было собирать данные, возможно, переводить их, а результат мог быть лишь отчасти верным. Уровень в то время был еще очень базовым. Но теперь эти модели могут научиться переводить даже без данных. Вы просто предоставляете один язык и другой язык, и модель учится переводить самостоятельно, и эта способность приходит естественно и удовлетворительно.

Ллайон Джонс: Но интуиция «Внимания» — это все, что вам нужно. Итак, я придумал это название, и, по сути, то, что произошло, произошло, когда мы искали название.

Мы просто делали абляцию и начали выбрасывать кусочки модели, просто чтобы посмотреть, не станет ли хуже. К нашему удивлению, ситуация начала улучшаться. Гораздо лучше отказаться от всех подобных извилин. Вот откуда взялось название.

Ашиш Васвани: По сути, интересно то, что мы начали с очень простой структуры, а затем добавили что-то, добавили извилины, а затем, я думаю, убрали их. Есть также много других очень важных вещей, таких как внимание нескольких голов.

** Дженсен Хуанг: Кто придумал название «Трансформер»? Почему его называют Трансформером? **

Якоб Ушкорейт: Нам нравится это имя. Мы просто выбрали его случайно и подумали, что оно очень креативное. Оно изменило нашу модель производства данных и использовало такую логику. Любое машинное обучение — это преобразователь и разрушитель.

Ноам Шазир: Мы раньше не думали об этом имени. Я думаю, что это имя очень простое, и многие люди считают, что это имя очень хорошее. Раньше я думал о многих именах, таких как Яаков, и в конце концов остановился на «Трансформере», который описывает принцип модели. Он фактически преобразует весь сигнал. Согласно этой логике, будет преобразовано почти все машинное обучение.

Ллайон Джонс: Причина, по которой имя «Трансформер» стало таким знакомым, заключается не только в содержании перевода, но и в том, что мы хотели описать эту трансформацию в более общем виде. Я не думаю, что мы проделали отличную работу, но как творцы перемен, как гонщик и двигатель, это имело смысл. Каждый может понять такую большую языковую модель, движок и логику.С точки зрения архитектуры это относительно ранний период начала.

Но мы осознавали, что на самом деле пытаемся создать что-то очень, очень универсальное, способное превратить что угодно во что угодно. И я не думаю, что мы предсказали, насколько хорошо это будет на самом деле, когда Трансформеры будут использоваться для изображений, что немного удивительно. Ребята, вам это может показаться логичным, но на самом деле вы можете разбить изображение на части и пометить каждую маленькую точку, верно. Я думаю, что это было то, что существовало в архитектуре очень рано.

Поэтому, когда мы создавали библиотеки тензор-тензор, мы действительно сосредоточились на расширении авторегрессионного обучения. Это не только язык, но и образ, аудиокомпоненты.

Итак, Лукаш сказал, что он занимается переводом. Я думаю, он недооценил себя, и все эти идеи, сейчас мы начинаем видеть, как эти закономерности собираются вместе, все они добавляются к модели.

Но на самом деле все было задумано с самого начала, идеи просачиваются, и это занимает некоторое время. Цель Лукаша состоит в том, чтобы у нас были все эти академические наборы данных, которые переходят от изображения к тексту, от текста к изображению, от аудио к тексту, от текста к тексту. Нам следует тренироваться всему.

Эта идея действительно стимулировала работу по расширению, и в конечном итоге она сработала, и она была настолько интересной, что мы могли переводить изображения в текст, текст в изображения и текст в текст.

Вы используете его для изучения биологии или биологического программного обеспечения, которое может быть похоже на компьютерное программное обеспечение тем, что оно запускается как программа, а затем вы компилируете его во что-то, что может работать на графическом процессоре.

Жизнь биологического программного обеспечения начинается с спецификации определенного поведения. Допустим, вы хотите напечатать белок, например определенный белок в клетке. А затем вы научились использовать глубокое обучение, чтобы преобразовать ее в молекулу РНК, но на самом деле проявлять такое поведение, как только она попадает в ваши клетки. Так что идея на самом деле заключается не только в переводе на английский язык.

**Дженсен Хуанг: Вы создали большую лабораторию для производства всего этого? **

Эйдан Гомес: Многие данные доступны и фактически остаются общедоступными, поскольку эти данные часто по-прежнему в значительной степени финансируются государством. Но на самом деле вам все равно нужны данные, чтобы четко проиллюстрировать явление, которого вы пытаетесь достичь.

Пытаемся смоделировать данный продукт, скажем, экспрессию белка, вакцины мРНК и тому подобное, или да, в Пало-Альто у нас есть куча роботов и людей в лабораторных халатах, оба обучают исследовательский персонал, включая бывших биологов.

Теперь мы считаем себя пионерами чего-то нового, работающими над фактическим созданием этих данных и проверкой моделей, создающих эти молекулы. Но первоначальная идея была в переводе.

** Джен-Сун Хуанг: Первоначальной идеей был машинный перевод. Я хочу спросить, каковы ключевые узлы в укреплении и прорыве архитектуры? И какое влияние они оказывают на дизайн Трансформера? **

Эйдан Гомес: Вы все это видели. Считаете ли вы, что в дополнение к базовой конструкции Трансформера действительно есть большой дополнительный вклад? Я думаю, что с точки зрения вывода было проделано много работы по ускорению этих моделей и повышению их эффективности.

Я до сих пор думаю, что меня это немного беспокоит из-за того, насколько похожими были наши первоначальные формы. Я думаю, что миру нужно что-то лучшее, чем «Трансформер», и я думаю, что все мы здесь хотим, чтобы его заменили чем-то, что выведет нас на новый уровень производительности.

Я хочу задать вопрос всем присутствующим здесь. Как вы думаете, что произойдет дальше? Как будто это захватывающий шаг, потому что я думаю, что это очень похоже на то, что было 6-7 лет назад, верно?

Ллайон Джонс: Да, я думаю, люди были бы удивлены тем, насколько это похоже, не так ли? Люди любят спрашивать меня, что будет дальше, потому что я автор этой статьи. Как по волшебству, вы взмахиваете волшебной палочкой, и что происходит дальше? Я хочу отметить, как был разработан этот конкретный принцип. Нам нужно не только стать лучше, нам нужно быть явно лучше.

Потому что, если он будет хоть немного лучше, этого недостаточно, чтобы подтолкнуть всю индустрию искусственного интеллекта к чему-то новому. Итак, мы остановились на оригинальной модели, хотя технически это, вероятно, не самая мощная вещь, которая у нас есть на данный момент.

Но все знают, какие персональные инструменты им нужны: вам нужны лучшие контекстные окна, вам нужна возможность быстрее генерировать токены. Ну, я не уверен, что вам понравится этот ответ, но они сейчас используют слишком много вычислительных ресурсов. Я думаю, что люди делают много бесполезных вычислений. Мы прилагаем все усилия, чтобы повысить эффективность, спасибо.

** Дженсен Хуанг: Думаю, мы делаем это более эффективным, спасибо! **

Якоб Ушкорейт: Но я думаю, что дело в основном в том, как распределяются ресурсы, а не в том, сколько ресурсов в целом потребляется. Например, мы не хотим тратить слишком много денег на простую проблему или тратить слишком мало денег на слишком сложную проблему и в конечном итоге не получать решения.

Илья Полосухин: Этот пример похож на 2+2, если его правильно заложить в эту модель, он использует триллион параметров. Поэтому я думаю, что адаптивные вычисления — это одна из будущих вещей, когда мы знаем, сколько вычислительных ресурсов следует потратить на конкретную проблему.

Эйдан Гомес: Мы знаем, какими возможностями компьютерного поколения мы располагаем в настоящее время. Я думаю, что это следующий вопрос, на котором необходимо сосредоточиться. Я думаю, что это изменение космического уровня, и это также будущая тенденция развития.

Лукаш Кайзер: Эта концепция существовала до Трансформера и была интегрирована в модель Трансформера. На самом деле, я не уверен, что все здесь знают, что нам не удалось достичь нашей первоначальной цели.Нашей первоначальной целью при запуске этого проекта было моделирование процесса эволюции токена. Это не просто линейный процесс генерации, а пошаговая эволюция текста или кода. Мы повторяем и редактируем, что позволяет нам не только имитировать то, как люди создают тексты, но и использовать их как часть этого процесса. Потому что, если бы вы могли генерировать контент так же естественно, как это делают люди, они действительно смогли бы обеспечить обратную связь, верно?

Все мы читали статью Шеннона, и нашей первоначальной идеей было просто сосредоточиться на языковом моделировании и недоумении, но этого не произошло. Я думаю, что именно здесь мы можем развиваться дальше. Речь также идет о том, как мы теперь разумно организуем вычислительные ресурсы, и эта организация теперь применима и к обработке изображений. Я имею в виду, что диффузионные модели обладают интересным свойством: они могут постоянно совершенствовать и улучшать свое качество посредством итераций. А у нас сейчас таких возможностей нет.

Я имею в виду этот фундаментальный вопрос: какие знания должны быть встроены в модель, а какие знания должны находиться вне модели? Используете ли вы поисковую модель? Примером может служить модель RAG (Retri-Augmented Generation). Аналогичным образом, это также включает в себя вопрос вывода, т.е. какие задачи вывода должны выполняться извне через символические системы, а какие задачи вывода должны выполняться непосредственно внутри модели. Это во многом дискуссия об эффективности. Я верю, что большие модели со временем научатся выполнять вычисления типа 2+2, но если вы хотите вычислить 2+2 и сделать это путем сложения чисел, это явно неэффективно.

** Джен-Сун Хуан: Если ИИ нужно вычислить только 2+2, то ему следует использовать калькулятор напрямую, чтобы выполнить эту задачу с наименьшими затратами энергии, потому что мы знаем, что калькулятор — наиболее эффективный инструмент для делаем вычисления 2+2. Однако если кто-то спросит ИИ, как вы пришли к решению 2+2? Знаете ли вы, что правильный ответ — 2+2? Будет ли это потреблять много ресурсов? **

![Хуан Ренсюнь беседует с семью авторами статьи «Трансформер»: Мы попали в ловушку исходной модели и нуждаемся в более мощной новой архитектуре](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ 943398d349cf0e17db81b1469281b267.png)

Ноам Шазир: Точно. Вы уже приводили пример, но я также убежден, что системы искусственного интеллекта, которые все здесь разрабатывают, достаточно умны, чтобы активно использовать калькуляторы.

Глобальные общественные блага (GPP) в настоящее время делают именно это. Я считаю, что нынешняя модель слишком доступна и слишком мала. Причина, по которой он дешев, заключается в такой технологии, как NV, благодаря ее производительности.

Вычислительные затраты на одну операцию составляют примерно от 10 до 18 долларов. Другими словами, примерно такого порядка. Спасибо за создание такого количества вычислительных ресурсов. Но если вы посмотрите на модель с 500 миллиардами параметров и одним триллионом вычислений на один токен, это примерно доллар на миллион токенов, что в 100 раз дешевле, чем пойти и купить книгу в мягкой обложке и прочитать ее. Наше приложение в миллион раз или более ценнее, чем эффективные вычисления в гигантских нейронных сетях. Я имею в виду, что они, конечно, более ценны, чем что-то вроде лечения рака, но это нечто большее.

Ашиш Васвани: Я думаю, что сделать мир умнее означает, как получить обратную связь от мира и сможем ли мы добиться многозадачности и многопоточного распараллеливания. Если вы действительно хотите построить такую модель, это отличный способ помочь нам спроектировать такую модель.

** Дженсен Хуанг: Можете ли вы кратко рассказать, почему вы основали свою компанию? **

Ашиш Васвани: Целью нашей компании является построение моделей и решение новых задач. Наша задача — понять цели и содержание задания и адаптировать это содержание под нужды клиента. Фактически, начиная с 2021 года, я считаю, что самая большая проблема с моделями заключается в том, что вы не можете просто сделать модели умнее, вам также нужно найти подходящих людей для интерпретации этих моделей. Мы надеемся объединить мир и модель, сделав ее крупнее и выдающейся. В процессе обучения требуется определенный прогресс, которого изначально невозможно достичь в вакуумной среде лаборатории.

Ноам Шазир: В 2021 году мы стали соучредителями этой компании. У нас есть такие замечательные технологии, но они не доходят до многих людей. Представьте себе, если бы я был пациентом, слушающим ваши слова, я бы подумал, что существуют десятки миллиардов людей с разными задачами, которые им необходимо выполнить. В этом и заключается суть глубокого обучения: мы совершенствуем технологии посредством сравнения. Фактически, благодаря постоянному развитию технологий, возглавляемому Дженсеном Хуангом, наша конечная цель — помогать людям во всем мире. Вы должны тестировать, и теперь нам нужно разработать более быстрые решения, которые позволят сотням людей использовать эти приложения. Как и изначально, не все использовали эти приложения, многие люди использовали их просто для развлечения, но они работали, работали.

Якоб Ушкорейт: Спасибо. Я хочу поговорить о системе экологического программного обеспечения, которую мы создали. В 2021 году я стал соучредителем этой компании, и наша цель — решить некоторые проблемы, имеющие реальный научный эффект. Раньше мы имели дело с довольно сложным контентом. Но когда у меня родился первый ребенок, мой взгляд на мир изменился. Мы надеемся сделать жизнь человека более удобной и внести свой вклад в исследования белков. Я надеюсь изменить существующую медицинскую структуру, особенно после рождения детей, и надеюсь, что развитие науки и техники окажет положительное влияние на выживание и развитие человека. Например, в некоторой степени пострадали структура и деконструкция белков, но в настоящее время нам не хватает данных. Мы должны основывать свои усилия на данных не только как долг, но и как отец.

** Джен-Сун Хуан: Мне нравится ваша точка зрения. Меня всегда интересует разработка новых лекарств и процесс, позволяющий компьютерам научиться разрабатывать и создавать новые лекарства. Если бы можно было изучать и разрабатывать новые лекарства, а лаборатория могла бы их тестировать, можно было бы определить, будет ли работать такая модель. **

Лион ДжонсЛайон Джонс: Да, я последний, кто поделился. Компания, которую мы основали, называется Sakana AI, что означает «рыба». Причина, по которой мы назвали нашу компанию в честь японского слова «рыба», заключается в том, что мы подобны косяку рыб, который, естественно, вдохновляет нас на поиск интеллекта. Если мы сможем объединить многие из рассмотренных элементов, мы сможем создать нечто сложное и красивое. Многие могут не понимать специфику процесса и содержания, но наша основная философия — «Обучение всегда побеждает».

Хотите ли вы решить проблему или научиться чему-нибудь, обучение всегда поможет вам победить. В процессе создания генеративного ИИ обучающий контент также поможет нам победить. Как присутствующий исследователь, я хотел бы напомнить всем, что мы придаем реальное значение компьютерным моделям ИИ, чтобы они действительно могли помочь нам понять тайны Вселенной. На самом деле, я также хотел сообщить вам, что мы собираемся объявить о новой разработке, которая нас очень радует. Несмотря на то, что сейчас у нас есть ряд исследований в качестве строительного блока, мы переживаем трансформационное развитие, когда нынешнее управление моделями организовано и позволяет людям по-настоящему участвовать. Мы делаем эти модели более осуществимыми, используя эти большие модели и трансформирующие модели, чтобы изменить то, как люди понимают мир и вселенную. это наша цель.

Эйдан Гомес: Мое первоначальное намерение основать компанию было похоже на намерение Ноама Шазира. Я думаю, что компьютерные технологии вступают в новую парадигму, которая меняет существующие продукты и способы нашей работы. Все основано на компьютере и в определенной степени меняется в рамках технологии. Какова наша роль? На самом деле я преодолеваю разрыв, преодолеваю пропасть. Мы видим, как разные компании создают такие платформы, позволяя каждой компании адаптировать и интегрировать продукты, что является способом непосредственного общения с пользователями. Именно так мы развиваем технологии и делаем их более доступными и повсеместными.

** Дженсен Хуанг: Что мне особенно нравится, так это то, что, когда Ноам Шазир кажется особенно спокойным, вы выглядите очень взволнованным. Различия в ваших личностях настолько резкие. Теперь я предоставляю слово Лукашу Кайзеру. **

Лукаш Кайзер: Мой опыт работы в OpenAI был очень разрушительным. В компании очень весело, и мы обрабатываем много данных для проведения расчетов, но, в конце концов, моя роль по-прежнему остается ролью специалиста по обработке данных.

Илья Полосухин: Я ушел первым. Я твердо верю, что мы добьемся значительного прогресса и программное обеспечение изменит весь мир. Самый прямой путь — научить машины писать код и сделать программирование доступным для всех.

В NEAR, хотя наш прогресс ограничен, мы стремимся интегрировать человеческую мудрость и получать соответствующие данные, например, чтобы еще больше вдохновить людей осознать, что нам нужна базовая методология. Эта модель является фундаментальной разработкой. Эта большая модель широко используется во всем мире. Она имеет множество применений в аэрокосмической и других областях. Она связана с коммуникацией и взаимодействием в различных областях и фактически предоставляет нам возможности. По мере углубления использования мы обнаружили, что появилось больше моделей, и споров об авторских правах в настоящее время не так много.

Сейчас мы живем в новую генеративную эпоху, эпоху, которая прославляет инновации и новаторов, и мы хотим активно участвовать и принимать изменения, поэтому мы искали разные способы помочь построить действительно классную модель.

** Дженсен Хуанг: Эта система положительной обратной связи очень полезна для нашей экономики в целом. Теперь мы можем лучше проектировать нашу экономику. Кто-то спросил: в эпоху, когда модели GPT обучают миллиарды баз данных в масштабе токенов, каков следующий шаг? Какой будет новая технология моделирования? Что вы хотите изучить? Каков ваш источник данных? **

Илья Полосухин: Наша отправная точка — векторы и смещения. Нам нужны модели, имеющие реальную экономическую ценность, которые люди смогут оценить и в конечном итоге применить ваши методы и инструменты на практике, чтобы улучшить всю модель.

** Джен-Сун Хуанг: Как вы обучаете модель? Каковы были первоначальные взаимодействия и модели взаимодействия? Это общение и взаимодействие между моделями? Или существуют генеративные модели и методы? **

Илья Полосухин: В нашей команде каждый имеет свою техническую экспертизу.

Якоб Ушкорейт: Следующий шаг — рассуждения. Мы все осознаем важность рассуждений, но большая часть работы по-прежнему выполняется инженерами вручную. На самом деле мы учим их отвечать в интерактивном формате вопросов и ответов и надеемся, что они вместе поймут, почему, и вместе представят убедительную модель рассуждения. Мы надеемся, что модель сможет генерировать нужный нам контент, и именно этот метод генерации мы ищем. Будь то видео, текст или 3D-информация, все они должны быть интегрированы.

Лукаш Кайзер: Я думаю, понимают ли люди, что выводы на самом деле делаются на основе данных? Если мы начнем рассуждать, у нас есть набор данных и мы задумаемся, почему эти данные разные? Затем мы узнаем, что различные приложения на самом деле основаны на процессе анализа данных. Благодаря возможностям компьютеров, благодаря таким системам, мы можем начать дальнейшее развитие. Мы можем рассуждать о соответствующем контенте и проводить эксперименты.

Во многих случаях они извлекаются из данных. Я думаю, что логический вывод развивается очень быстро, модели данных очень важны, и в ближайшем будущем будет больше интерактивного контента. Мы еще не провели достаточного обучения, это не ключевой контент и элемент, нам нужно сделать данные более детализированными.

Ноам Шазир: Проектирование некоторых данных, например, проектирование обучающей машины, может включать сотни или сотни миллионов различных токенов.

Ашиш Васвани: Я хочу подчеркнуть, что в этой области у нас есть много партнеров, которые достигли определенных успехов. Какой автоматизированный алгоритм является лучшим? Фактически, это значит разбить реальные задачи на различное содержание. Наша модель также очень важна: она помогает нам получить данные и проверить, находятся ли они в нужном месте. С одной стороны, это помогает нам сосредоточиться на данных; с другой стороны, такие данные предоставляют нам высококачественные модели для решения абстрактных задач. Поэтому мы считаем, что измерение этого прогресса — это также путь творчества, путь научного развития и путь развития нашей автоматизации.

** Дженсен Хуан: Невозможно реализовать отличный проект без хорошей системы измерения. У вас есть вопросы друг к другу? **

Илья Полосухин: Никто особо не хочет знать, какие шаги они предприняли. Но на самом деле мы надеемся понять и изучить то, что делаем, получить достаточно данных и информации и сделать разумные выводы. Например, если у вас есть шесть шагов, но вы можете пропустить один шаг, проанализировав пять шагов. Иногда вам не нужны шесть шагов, а иногда нужно больше шагов, так как же воспроизвести подобный сценарий? Что вам нужно, чтобы двигаться дальше от Token?

Лукаш Кайзер: Лично я убежден, что воспроизведение такой большой модели — очень сложный процесс. Системы будут развиваться, но по сути вам нужно разработать метод. На протяжении всей человеческой истории мы неоднократно воспроизводили успешные сцены.

** Джен-Сун Хуан: Я очень рада общению с вами и надеюсь, что у вас будет возможность общаться друг с другом и творить неописуемое волшебство. Спасибо за участие в этой встрече, спасибо вам большое! **

Посмотреть Оригинал
  • Награда
  • комментарий
  • Поделиться
комментарий
Нет комментариев