Наша Крипто AI Теза (Частина II): Децентралізоване Обчислення - KING

Розширений12/18/2024, 2:35:27 AM
У частині II моєї дисертації я поглиблюсь у чотири найбільш перспективні підсектори в Crypto AI: децентралізоване обчислення: навчання, висновки та ринки GPU, мережі даних, перевірена штучна інтелекту, AI агенти, що проживають на ланцюжку. Цей шматок представляє собою кульмінацію тижнів глибоких досліджень та розмов з засновниками та командами по всьому ландшафту Crypto AI. Він не призначений для повного погруження в кожний сектор - це кроликова нора на інший день.

Я ще не відштовхнувся від цього одного великого промаху.

Це все ще турбує мене, тому що це була найочевидніша ставка для будь-кого, хто звертав увагу, але я не вклав жодного долара.

Ні, це не був наступний вбивця Solana або мемекоїн з собакою в смішній шапці.

Це було… NVIDIA.

Ціна акцій NVDA з початку року. Джерело: Google

Лише за один рік NVDA зросла втричі, з $1T до $3T ринкової капіталізації. Вона навіть перегнала Біткоїн протягом того ж періоду.

Звичайно, деяка частина цього - це хайп щодо штучного інтелекту. Але велика частина ґрунтується на реальності. Компанія NVIDIA звітувала про 60 мільярдів доларів прибутку за фінансовий рік 2024, що становить приголомшливе зростання на 126% порівняно з 2023 роком. Цей ріст був зумовлений тим, що великі технологічні компанії взялися за графічні процесори в глобальній гонці за штучним загальним інтелектом.

Так чому я це пропустив?

Протягом двох років я був націлений на криптовалюту і не звертав уваги на те, що відбувалося в галузі штучного інтелекту. Це була велика помилка, і вона все ще їсть мене.

Але я не роблю ту саму помилку вдруге.

Сьогодні Crypto AI відчувається дивно схожим. Ми на межі вибуху інновацій. Паралелі з Каліфорнійською золотою лихоманкою середини XIX століття важко ігнорувати - промисли та міста з’являлися за одну ніч, інфраструктура розвивалася з розривом швидкості, і багатства здобували ті, хто осмілився стрибнути.

Як NVIDIA на початкових етапах, Crypto AI буде очевидним у подальшому.

УЧастина I моєї дисертації, Я пояснив, чому Крипто AI є найбільш захоплюючою можливістю для інвесторів та будівельників сьогодні.

Ось швидкий огляд:

  • Багато хто ще відкидають це як “вапорвар”.
  • Крипто AI знаходиться на початковому етапі — ймовірно, за 1-2 роки від піку хайпу.
  • Існує можливість зростання понад 230 млрд доларів у цій сфері, як мінімум.

В своїй основі Crypto AI - це штучний інтелект з криптовою інфраструктурою, накладеною зверху. Це означає, що ймовірніше, що він буде слідувати експоненціальному траєкторії зростання штучного інтелекту, ніж більший ринок криптовалют. Так що, щоб залишатися вперед, вам потрібно слідкувати за останніми дослідженнями зі штучного інтелекту на Arxiv та спілкуватися з засновниками, які вважають, що вони будують наступну велику річ.

У частині II моєї дисертації я детально розгляну чотири найбільш перспективні підгалузі у сфері Крипто ШІ:

  1. Децентралізований обчислення: Навчання, Висновок & ринки GPU
  2. Мережі даних
  3. Перевірна ШІ
  4. AI Агенти, що живуть на ланцюжку

Цей матеріал є кульмінацією тижнів глибоких досліджень і розмов із засновниками та командами в ландшафті криптоштучного інтелекту. Він не призначений для того, щоб бути виснажливим глибоким зануренням у кожен сектор — це кроляча нора на інший день.

Замість цього розглядайте це як високорівневу дорожню карту, створену для підживлення цікавості, точного налаштування вашого дослідження та керівництва думками про інвестиції.

Відображення ландшафту

Я уявляю децентралізований стек штучного інтелекту як шарову екосистему: вона починається з децентралізованого обчислення та відкритих мереж даних з одного боку, які забезпечують навчання моделей децентралізованого штучного інтелекту.

Кожен висновок потім перевіряється — як вхідні, так і вихідні дані — за допомогою поєднання криптографії, криптоекономічних стимулів та мереж оцінювання. Ці перевірені виводи потім потрапляють до штучних інтелектуальних агентів, які можуть працювати автономно на ланцюжку, а також споживчих і корпоративних застосунків штучного інтелекту, яким користувачі дійсно можуть довіряти.

Координаційні мережі все об’єднують, забезпечуючи безшовну комунікацію та співпрацю в екосистемі.

У цьому візії будь-хто, хто будує в галузі штучного інтелекту, може використовувати один або декілька рівнів цього стеку, залежно від їх конкретних потреб. Чи використовуючи децентралізоване обчислення для тренування моделі, чи використовуючи мережі оцінки для забезпечення високоякісних виводів, стек пропонує цілий ряд варіантів.

Завдяки вбудованій композиції блокчейну, я вважаю, що ми природно рухаємося до модулярного майбутнього. Кожен шар стає гіперспеціалізованим, протоколи оптимізовані для відокремлених функцій, а не для загального інтегрованого підходу.

Джерело: topology.vc

Спостерігається камбрійська експлозія стартапів, які будуються на кожному рівні децентралізованого стека штучного інтелекту, більшість з них були засновані всього за останні 1-3 роки. Це очевидно: ми все ще на початковому етапі.

Найбільш повна і актуальна карта ландшафту стартапів Crypto AI, яку я бачив, підтримує Кейсі і її команда в topology.vc. Це невичерпний ресурс для всіх, хто відстежує цей простір.

Приглядаючись до криптовалютних підсекторів штучного інтелекту, я постійно запитую себе: наскільки великі тут можливості? Я не цікавлюся малими ставками — я шукаю ринки, які можуть масштабуватися до сотень мільярдів.

1. Ринковий розмір

Почнемо з розміру ринку. Оцінюючи підсектор, я питаю себе: чи створює він абсолютно новий ринок, чи руйнує існуючий?

Возьмемо, наприклад, децентралізоване обчислення. Це руйнівна категорія, потенціал якої можна оцінити, розглядаючи встановлений ринок хмарних обчислень, вартість якого становить ~$680 млрд сьогодніі очікується досягнути 2,5 трлн доларів у 2032 році.

Нові ринки без попередників, такі як штучний інтелект, важче кількісно оцінити. Без історичних даних їх оцінка включає комбінацію усвідомлених припущень і перевірки на практиці щодо проблем, які вони вирішують. І підвалина полягає в тому, що іноді те, що виглядає як новий ринок, насправді просто є рішенням, яке шукає проблему.

2. Часування

Час все рішає. Технології мають тенденцію покращуватися і дешевшати з часом, але темпи прогресу варіюються.

Наскільки зрілою є технологія в певному субсекторі? Вона готова до масштабування, чи все ще знаходиться на етапі досліджень, і практичні застосування віддалені на кілька років? Час визначає, чи заслуговує сектор на негайну увагу, чи його слід залишити в категорії “очікуйте і побачите”.

Возьмем полностью гомоморфное шифрование (FHE) в качестве примера: потенциал неоспорим, но сегодня оно все еще слишком медленное для широкого использования. Вероятно, нам потребуется несколько лет, чтобы увидеть его широкую жизнеспособность. Концентрируясь в первую очередь на секторах, близких к масштабированию, я могу использовать свое время и энергию там, где набирает силу - и появляются возможности.

Якщо б я мав картографувати ці категорії на графіку розміру проти часу, це виглядало б приблизно так. Пам’ятайте, що це більше концептуальний нарис, ніж жорсткий посібник. Тут багато відтінків, наприклад, в межах перевірної інференції різні підходи, такі як zkML та opML, перебувають на різних рівнях готовності до використання.

З цим сказано, я впевнений, що масштаб штучного інтелекту буде настільки великим, що навіть те, що сьогодні виглядає “нишевим”, може перетворитися на значний ринок.

Варто також зауважити, що технологічний прогрес не завжди відбувається по прямій лінії - він часто відбувається стрибками. Мої погляди на часування та ринковий обсяг зміняться, коли відбудуться нові прориви.

Маючи на увазі цю структуру, давайте розберемо кожен підсектор.

Сектор 1: Децентралізований обчислень

Коротко кажучи;

  • Децентралізоване обчислення є основою децентралізованої штучної інтелекту.
  • Ринки відеокарт, децентралізоване навчання та децентралізоване висновки глибоко взаємопов’язані та процвітають разом.
  • Сторона поставки зазвичай постачається з невеликих середніх дата-центрів та споживацьких відеокарт.
  • Попит наразі невеликий, але зростає. Сьогодні він приходить від користувачів, які чутливі до цін та нечутливі до затримок, а також від менших стартапів у галузі штучного інтелекту.
  • Найбільшим викликом для ринків відеокарт Web3 сьогодні є фактично їхнє працювання.
  • Організація використання графічних процесорів у децентралізованій мережі потребує висококваліфікованої інженерної роботи та добре продуманої, надійної архітектури мережі.

1.1. Ринки графічних процесорів / обчислювальних мереж

Декілька команд Crypto AI позиціонують себе для того, щоб скористатися дефіцитом GPU в порівнянні з попитом, будуючи децентралізовані мережі, які використовують глобальний пул потенційної обчислювальної потужності.

Основна пропозиція вартості для ринків GPU подвійна:

  1. Ви можете отримати доступ до обчислень «до 90% дешевше» ніж AWS, що походить від (1) видалення посередників та (2) відкриття сторони постачання. По суті, ці ринки дозволяють вам використовувати найнижчу маржинальну вартість обчислень у всьому світі.
  2. Більша гнучкість: немає договорів з прив’язкою, немає KYC, немає очікування.
  3. Стійкість до цензури

Для вирішення проблеми подання на ринку ці ринки забезпечують обчислення з:

  • Видатні ГПУ для підприємств (наприклад, A100s, H100s) від невеликих-середніх центрів обробки даних, які мають труднощі з пошуком попиту самостійно або біткоїн-майнерів, які хочуть диверсифікувати свою діяльність. Я також знаю команди, які працюють з великими урядовими інфраструктурними проектами, де центри обробки даних будуються в рамках ініціативи з росту технологій. Ці постачальники часто мають стимули зберігати свої ГПУ в мережі, що допомагає їм скомпенсувати амортизаційні витрати на їхні ГПУ.
  • Графічні процесори споживчого класу від мільйонів геймерів і домашніх користувачів, які підключають свої комп’ютери до мережі в обмін на заохочення токенів

З іншого боку, попит на децентралізоване обчислення сьогодні виникає від:

  1. Чутливі до ціни та затримки користувачі. У цьому сегменті пріоритетом є доступність, а не швидкість. Подумайте про дослідників, які досліджують нові галузі, про незалежних розробників штучного інтелекту та інших користувачів, які економлять на витратах, яким не потрібна обробка в реальному часі. Через обмеження бюджету багато з них можуть мати проблеми з традиційними гіперскейлерами, такими як AWS або Azure. Оскільки вони досить розподілені серед населення, цільовий маркетинг має вирішальне значення для залучення цієї групи.
  2. Менші стартапи зі штучним інтелектом стикаються з викликами забезпечення гнучких, масштабованих обчислювальних ресурсів без укладання довгострокових контрактів з провідними хмарними постачальниками. Розвиток бізнесу є важливим у привертанні цього сегмента, оскільки вони активно шукають альтернативи замиканню на гіпершкалерів.
  3. Крипто AI стартапи, що будують децентралізовані продукти штучного інтелекту, але без власного обсягу обчислень, будуть потребувати використання ресурсів однієї з цих мереж.
  4. Ігри у хмарі: Незважаючи на те, що це не безпосередньо залежить від штучного інтелекту, ігри у хмарі є зростаючим джерелом попиту на ресурси GPU.

Головне, що треба пам’ятати: розробники завжди надають перевагу витратам та надійності.

Реальний виклик: попит, а не пропозиція

Стартапи в цій сфері часто рекламують розмір своїх мереж поставок GPU як ознаку успіху. Але це вводить в оману - це найбільше числове показник самовдоволеності.

Справжнім обмеженням є не постачання, а попит. Головні показники, які слід відстежувати, - це не кількість доступних графічних процесорів, а використання та кількість фактично орендованих графічних процесорів.

Токени відмінно працюють на підтриманні постачальної сторони, створюючи необхідні стимули для швидкого масштабування. Однак вони самі по собі не вирішують проблему попиту. Справжнім випробуванням є досягнення такого стану продукту, коли потенційний попит матеріалізується.

Хасіб Куреши (Dragonfly) каже найкраще:

Зробити мережі обчислювальних мереж дійсно працюють

Навпаки, на відміну від загальноприйнятої думки, найбільшою перепоною для ринків розподіленого GPU web3 сьогодні є просто їх належне функціонування.

Це не є тривіальною проблемою.

Організація роботи ГПУ по всій розподіленій мережі є складною задачею, яка включає в себе безліч викликів - розподіл ресурсів, динамічне масштабування робочого навантаження, балансування навантаження між вузлами та ГПУ, управління затримкою, передача даних, толерантність до відмов та робота з різноманітним апаратним забезпеченням, розкиданим по різних географічних регіонах. Я міг би продовжувати далі і далі.

Для досягнення цього потрібна серйозна інженерія та добре розроблена мережева архітектура.

Щоб підкреслити це, розгляньте Kubernetes від Google. Він широко вважається золотим стандартом оркестрації контейнерів, автоматизуючи процеси, такі як балансування навантаження та масштабування в розподілених середовищах - дуже схожі виклики, з якими стикаються розподілені мережі GPU. Сама Kubernetes була побудована на понад десятилітньому досвіді Google, і навіть тоді знадобилося кілька років безперервної ітерації, щоб зробити все правильно.

Деякі ринки обчислювальних потужностей GPU, які вже працюють сьогодні, можуть обробляти невеликі навантаження, але проблеми починаються, як тільки вони намагаються масштабуватися. Я підозрюю, що це тому, що вони були побудовані на слабко спроектованих архітектурних засадах.

Ще одним викликом / можливістю для децентралізованих обчислювальних мереж є забезпечення надійності: перевірка того, що кожен вузол дійсно надає обчислювальну потужність, яку він заявляє. Наразі це залежить від репутації мережі, і в деяких випадках постачальники обчислювальних послуг ранжируються за балами репутації. Блокчейн, здається, є природним рішенням для систем бездовір’я. Стартапи, такі як GensynіСфероннамагаються досягти безпідписної моделі у вирішенні цього питання.

Сьогодні багато команд web3 все ще мають складнощі з цими викликами, що означає, що можливості відкриті.

Розмір децентралізованого ринку обчислень

Як великий ринок децентралізованих обчислювальних мереж?

Сьогодні, це, ймовірно, лише незначна частка від $680B - $2.5T галузі хмарних обчислень. Однак, незважаючи на додаткове тертя для користувачів, завжди буде певний попит, поки витрати залишаються нижчими, ніж в традиційних постачальників.

Я вважаю, що витрати залишаться нижчими в найближчій до середньострокової перспективі через поєднання токенів-субсидій та розблокування постачання від користувачів, які не є ціново чутливі (наприклад, якщо я можу здавати в оренду свій ігровий ноутбук за додаткові кошти, мені все одно, чи це $20 або $50 на місяць)

Але справжній потенціал зростання для децентралізованих обчислювальних мереж і справжнє розширення їх TAM прийде, коли:

  1. Децентралізоване навчання моделей штучного інтелекту стає практичним
  2. Попит на висновки буксирує та існуючі центри обробки даних не можуть його задовольнити. Це вже починає розгортатися. Дженсен Хуанг каже, що попит на висновки зростає.збільшити „мільярд разів”.
  3. З’являються належні угоди про рівень обслуговування (SLA), що вирішує критичну перешкоду для впровадження у підприємствах. Наразі децентралізовані обчислення працюють на основі найкращих зусиль, що залишає користувачів з різними рівнями якості обслуговування (наприклад, час безвідмовної роботи у відсотках). З наявністю SLA ці мережі можуть пропонувати стандартизовані показники надійності та продуктивності, роблячи децентралізовані обчислення життєздатною альтернативою традиційних постачальників хмарних обчислень.

Децентралізоване, необмежене обчислення становить базовий рівень - фундаментальну інфраструктуру для децентралізованої AI екосистеми.

Незважаючи на постійне розширення ланцюга постачання кремнію (тобто GPU), я вважаю, що ми лише на початку ери інтелекту людства. Буде нестримний попит на обчислення.

Слідкуйте за точкою перегину, яка може спричинити значне переоцінювання всіх робочих ринків GPU. Це, ймовірно, відбудеться незабаром.

Інші примітки:

  • Ринок виключної графічної обробки (GPU) переповнений конкуренцією серед децентралізованих платформ і також зростання web2 штучного інтелекту небокрайніхподобається Vast.ai та Lambda.
  • Малі вузли (наприклад, 4 x H100) не користуються великим попитом через їх обмежене використання, але вдачі в пошуку когось, хто продає великі кластери - вони все ще мають серйозний попит.
  • Чи збере домінуючий гравець усі обчислювальні ресурси для децентралізованих протоколів, чи вони залишаться роздробленими між кількома ринками? Я нахиляюся до першого варіанту та степеневого розподілу результатів, оскільки консолідація часто призводить до ефективності в інфраструктурі. Але це займе час, і тим часом, роздробленість і безлад продовжуються.
  • Розробники хочуть зосередитися на створенні додатків, а не на розгортанні та налаштуванні. Майданчики повинні абстрагувати ці складнощі, зробивши доступ до обчислень як можна менш тертим.

1.2. Децентралізована тренування

У короткому вигляді; не вдаючись в подробиці

  • Якщо закони про масштабування збережуться, навчання наступного покоління передових моделей штучного інтелекту в одному центрі обробки даних одного дня стане фізично неможливим.
  • Навчання моделей ШІ вимагає великої кількості передачі даних між GPU. Низька швидкість передачі даних (інтерконект) між розподіленими GPU часто є найбільшою перепоною.
  • Дослідники вивчають кілька підходів одночасно, і відбуваються прориви (наприклад, Open DiLoCo, DisTrO). Ці досягнення будуть накопичуватися і посилюватися, прискорюючи прогрес у просторі.
  • Майбутнє децентралізованого навчання, ймовірно, полягає у менших, спеціалізованих моделях, розроблених для нішевих застосувань, а не фронтових моделях, спрямованих на штучний загальний інтелект.
  • Запит на виведення буде підійматися вгору з переходом до моделей, таких як o1 від OpenAI, що створює можливості для децентралізованих мереж виведення.

Уявіть собі: величезна, змінююча світ модель штучного інтелекту, не розроблена в секретних елітних лабораторіях, але оживлена мільйонами звичайних людей. Геймери, чиї GPU зазвичай виробляють кінематографічні вибухи Call of Duty, тепер використовують своє обладнання для чогось більшого - відкритої, колективно власної моделі штучного інтелекту без центральних ворітників.

У цьому майбутньому моделі фундаментального масштабу не є лише областю провідних лабораторій з штучного інтелекту.

Але давайте зберемо цю візію в реальності сьогодення. Наразі переважна більшість важких тренувань штучного інтелекту залишається прив’язаною до централізованих дата-центрів, і це, ймовірно, буде нормою протягом певного часу.

Компанії, подібні до OpenAI, масштабують свої великі кластери. Елон Маск недавнооголошенощо xAI наближається до завершення центру обробки даних, що має еквівалент 200 000 GPU H100.

Але це не тільки про кількість відеокарт. Використання потужності FLOPS моделі (MFU) - метрика, яка була введена вСтаття Google PaLMу 2022 році відстежує, наскільки ефективно використовується максимальна потужність GPU. Дивно, що MFU часто коливається навколо 35-40%.

Чому так низько? Хоча продуктивність відеокарт зростає з кожним роком відповідно до закону Мура, покращення мережі, пам’яті та зберігання значно відстають, створюючи гальмування. В результаті відеокарти часто просто бездіяльні, чекаючи на дані.

Навчання штучного інтелекту залишається високоцентралізованим і сьогодні через одне слово — Ефективність.

Навчання великих моделей залежить від таких технік, як:

• Паралельна обробка даних: Розбиття наборів даних на кілька GPU для виконання операцій паралельно, що прискорює процес навчання.

• Паралелізм моделі: Розподіл частин моделі між GPU, щоб обійти обмеження пам’яті.

Ці методи вимагають, щоб графічні процесори постійно обмінювалися даними, що робить швидкість з’єднання — швидкість, з якою дані передаються між комп’ютерами в мережі — абсолютно важливою.

Коли навчання моделі штучного інтелекту може коштувати понад 1 мільярд доларів, кожен приріст ефективності має значення.

З їх високошвидкісними міжз’язками централізовані центри обробки даних забезпечують швидкий обмін даними між графічними процесорами та створюють значні економічні вигоди під час навчання, яку децентралізовані налаштування не можуть забезпечити…до цих пір.

Преодолення повільної швидкості міжз’єднання

Якщо ви спілкуєтесь з людьми, які працюють у сфері ШІ, багато з них скажуть вам, що децентралізована тренування просто не працюватиме.

У децентралізованих налаштуваннях кластери GPU фізично не розташовані поруч, тому передача даних між ними відбувається набагато повільніше і стає проблемою. Для навчання потрібно, щоб GPU синхронізувалися та обмінювалися даними на кожному кроці. Чим далі вони знаходяться один від одного, тим вище затримка. Вища затримка означає повільнішу швидкість навчання та вищі витрати.

Що може зайняти кілька днів в централізованому центрі обробки даних, може розтягнутися на два тижні за децентралізованим підходом за вищою вартістю. Це просто не є життєздатним.

Але це має змінитися.

Хороша новина в тому, що зацікавленість у дослідженнях розподіленого навчання значно зросла. Дослідники вивчають одночасно декілька підходів, як свідчить про це бурхливість досліджень та опублікованих статей. Ці досягнення будуть накладатися та компонуватися, прискорюючи прогрес у цій галузі.

Це також про тестування виробництва та перевірку, наскільки ми можемо поставити перед собою виклик.

Деякі децентралізовані техніки навчання вже можуть працювати з меншими моделями в повільних мережах зв’язку. Зараз, передові дослідження намагаються розширити ці методи на все більші моделі.

  • Наприклад, Prime Intellect’s відкрити документ DiCoLo демонструє практичний підхід, який передбачає «острівці» графічних процесорів, які виконують 500 локальних кроків перед синхронізацією, скорочуючи вимоги до пропускної здатності до 500 разів. Те, що починалося як дослідження Google DeepMind у менших моделях, тепер було масштабовано для навчання моделі з 10 мільярдами параметрів у листопаді, а сьогодні повністю відкритого вихідного коду.
  • Дослідження Nousпіднімає планку за допомогою своєї рамки DisTrO, яка використовує оптимізатори для зниження вимог до між-GPU комунікації до вражаючих 10 000 разів під час навчання моделі з 1,2 млрд параметрів.
  • І моментум продовжує набирати обертів. У грудні Nous оголосила передтренування моделі з 15 млрд параметрів з кривою втрат (як зменшується помилка моделі з часом) та швидкістю збіжності (швидкість стабілізації продуктивності моделі), що відповідає або перевищує результати, які зазвичай спостерігаються при централізованих тренуваннях. Так, краще, ніж централізовані.
  • SWARM Parallelism та DTFMHE - інші методи навчання дуже великих моделей ШІ на різних типах пристроїв, навіть якщо ці пристрої мають різну швидкість та підключення.

Ще однією проблемою є керування різноманітним спектром апаратного забезпечення графічних процесорів, включаючи графічні процесори споживчого класу з обмеженою пам’яттю, які є типовими для децентралізованих мереж. Такі методи, як паралелізм моделей (розбиття шарів моделі між пристроями), можуть допомогти зробити це можливим.

Майбутнє децентралізованої тренування

Поточні децентралізовані методи навчання все ще обмежуються розмірами моделей, які далеко не досягають передових (GPT-4, за повідомленнями, має приблизно трильйон параметрів, що в 100 разів більше, ніж модель Prime Intellect з 10 млрд параметрів). Щоб дійсно масштабувати, нам знадобляться прориви в архітектурі моделей, краща мережева інфраструктура та розумніша розподіл завдань між пристроями.

І ми можемо мріяти велико. Уявіть світ, де децентралізоване навчання агрегує більше обчислювальної потужності GPU, ніж навіть найбільші централізовані центри обробки даних коли-небудь могли б зібрати.

Pluralis Research(гостра команда в децентралізованому навчанні, яку слід уважно стежити) стверджує, що це не просто можливо - це неодмінно. Централізовані центри даних обмежені фізичними обмеженнями, такими як простір та наявність електроенергії, тоді як децентралізовані мережі можуть використовувати практично необмежений резерв глобальних ресурсів.

Навіть Дженсен Хуан з NVIDIA визнав, що асинхронне децентралізоване навчанняможе розблокувати справжній потенціал масштабування штучного інтелекту. Розподілені мережі навчання також мають більшу стійкість до помилок.

Таким чином, в одному потенційному майбутньому, найпотужніші моделі штучного інтелекту в світі будуть навчатися децентралізованим чином.

Це захоплююча перспектива, але я ще не повністю переконаний. Нам потрібні більш переконливі докази того, що децентралізоване навчання найбільших моделей технічно та економічно доцільне.

Ось де я бачу величезну перспективу: Солодке місце децентралізованого тренування може бути в менших, спеціалізованих, відкритих моделях, призначених для цільових випадків, а не конкурування з ультра-великими моделями AGI. Деякі архітектури, особливо недекоративні моделі, вже доводять свою природну придатність для децентралізованих налаштувань.

І є ще одна складова цієї головоломки: токени. Коли децентралізований тренування стає можливим в масштабі, токени можуть відігравати вирішальну роль у стимулюванні та винагородженні учасників, ефективно створюючи ці мережі.

Шлях до цієї візії довгий, але прогрес дуже обнадійливий. Покращення у децентралізованому навчанні буде корисним для всіх — навіть великих технологічних компаній та провідних дослідницьких лабораторій з штучного інтелекту — оскільки масштаб майбутніх моделей перевищить потужність одного центру обробки даних.

Майбутнє розподілене. І коли технологія має такий широкий потенціал, історія показує, що вона завжди стає кращою й швидшою, ніж усі очікують.

1.3. Децентралізоване Висновок

Зараз більшість обчислювальної потужності в штучному інтелекті направлена на тренування масштабних моделей. Найкращі лабораторії штучного інтелекту знаходяться в гонці озброєнь для розробки найкращих базових моделей та в кінцевому підсумку досягнення загальної штучної інтелектуальної системи (ЗШІ).

Але ось моя думка: ця інтенсивна увага до обчислень під час навчання перейде до висновків у наступні роки. Оскільки штучний інтелект все більше вбудовується в застосунки, які ми використовуємо щоденно - від охорони здоров’я до розваг, ресурси обчислень, необхідні для підтримки висновків, будуть приголомшливими.

І це не просто спекуляція. Масштабування обчислень під час інференції є останнім модним словом в галузі штучного інтелекту. OpenAI нещодавно випустила попередню / міні-версію своєї останньої моделі o1 (кодове ім’я: Strawberry), і головна зміна? Вона витрачає час на роздуми, спочатку запитуючи себе, які кроки вона повинна зробити, щоб відповісти на запитання, а потім проходить кожен з цих кроків.

Ця модель розроблена для більш складних завдань, що вимагають багато планування, наприклад,розв’язування кросвордів—і вирішує проблеми, які потребують глибшого мислення. Ви помітите, що він працює повільніше, затрачаючи більше часу на генерацію відповідей, але результати набагато обдуманіші та витончені. Також його використання набагато дорожче ( 25x вартості GPT-4)

Зміна фокусу очевидна: наступний стрибок у продуктивності ШІ не буде здійснюватися лише за рахунок тренування більших моделей, але й за рахунок масштабування використання обчислення під час інференсу.

Якщо ви хочете прочитати більше, кілька дослідженьдокументипродемонструвати:

  • Масштабування обчислення висновків за допомогою повторного вибірки приводить до значних покращень у різних завданнях.
  • Існує експоненціальний закон масштабування для інференції також.

Після того як потужні моделі навчили, їх завдання виведення - коли моделі виконують різні завдання - можуть бути перенесені на децентралізовані обчислювальні мережі. Це має дуже багато сенсу, оскільки:

  • Виведення є значно менш затратним за ресурсами, ніж навчання. Після навчання моделі можуть бути стиснуті та оптимізовані за допомогою таких технік, як квантифікація, обрізання або дистиляція. Вони навіть можуть бути розбиті за допомогою паралелізму тензора або конвеєра, щоб працювати на звичайних споживчих пристроях. Вам не потрібна високопродуктивна GPU для виконання виведення.
  • Вже відбувається.Exo Labsвстановило, як запустити модель Llama3 з 450 млрд. параметрів на обладнанні споживачів, такому як MacBooks та Mac Minis. Розподілення висновків на багато пристроїв дозволяє ефективно та економічно обробляти великі робочі навантаження.
  • Кращий досвід користувача. Виконання обчислень ближче до користувача зменшує затримку, що є критичним для реального часу застосувань, таких як гра, AR або автопілотні автомобілі. Кожна мілісекунда має значення.

Подумайте про децентралізовану інференцію, як про CDN (мережа доставки контенту) для штучного інтелекту: замість швидкої доставки веб-сайтів, підключаючись до близьких серверів, децентралізована інференція використовує місцеву обчислювальну потужність для надання відповідей штучного інтелекту в рекордно короткі терміни. Застосовуючи децентралізовану інференцію, додатки штучного інтелекту стають більш ефективними, реагують швидше й є більш надійними.

Тенденція очевидна. Новий чіп M4 Pro від Apple конкурент NVIDIA’sRTX 3070 Ti—GPU, що до недавнього часу був власністю відданих геймерів. Апаратне забезпечення, яке у нас вже є, все більше здатне впоратися з передовими навантаженнями штучного інтелекту.

Крипто’s Value-Add

Для успішного функціонування децентралізованих мереж висновків повинні існувати переконливі економічні стимули для участі. Вузли в мережі повинні бути відшкодовані за свій внесок у обчислення. Система повинна забезпечити справедливий та ефективний розподіл винагород. Географічне різноманіття є важливим, що дозволяє зменшити затримку для завдань висновків та покращити стійкість до відмов.

І найкращий спосіб будувати децентралізовані мережі? Крипто.

Токени надають потужний механізм для вирівнювання інтересів учасників, забезпечуючи, що всі працюють на спільну мету: масштабування мережі та збільшення вартості токена.

Токени також надихають зростання мережі. Вони допомагають вирішити класичну проблему курки і яйця, яка призводить до зупинки більшості мереж, заохочуючи ранніх прихильників та стимулюючи участь з першого дня.

Успіх Bitcoin та Ethereum підтверджує цей факт - вони вже об’єднали найбільші пулі обчислювальної потужності на планеті.

Децентралізовані мережі виводу наступні у черзі. З географічним розмаїттям вони зменшують затримку, покращують стійкість до помилок і наближають штучний інтелект до користувача. І завдяки крипто-базованим стимулам вони будуть масштабуватися швидше і краще, ніж будь-коли традиційні мережі.

Відмова від відповідальності:

  1. Ця стаття розміщена за дозволом [[](https://www.chainofthought.xyz/p/our-crypto-ai-thesis-part-ii-decentralised-compute)[Ланцюг думок](https://www.chainofthought.xyz/)\]. Усі авторські права належать оригінальному автору [Тен Ян]. Якщо є заперечення до цього перевидання, будь ласка, зв’яжіться з Gate Learnкоманда, і вони швидко з цим впораються.
  2. Відмова від відповідальності: погляди та думки, висловлені в цій статті, належать виключно автору і не становлять будь-яких інвестиційних порад.
  3. Переклади статті на інші мови виконуються командою gate Learn. Якщо не вказано інше, копіювання, поширення або плагіатування перекладених статей заборонено.

Наша Крипто AI Теза (Частина II): Децентралізоване Обчислення - KING

Розширений12/18/2024, 2:35:27 AM
У частині II моєї дисертації я поглиблюсь у чотири найбільш перспективні підсектори в Crypto AI: децентралізоване обчислення: навчання, висновки та ринки GPU, мережі даних, перевірена штучна інтелекту, AI агенти, що проживають на ланцюжку. Цей шматок представляє собою кульмінацію тижнів глибоких досліджень та розмов з засновниками та командами по всьому ландшафту Crypto AI. Він не призначений для повного погруження в кожний сектор - це кроликова нора на інший день.

Я ще не відштовхнувся від цього одного великого промаху.

Це все ще турбує мене, тому що це була найочевидніша ставка для будь-кого, хто звертав увагу, але я не вклав жодного долара.

Ні, це не був наступний вбивця Solana або мемекоїн з собакою в смішній шапці.

Це було… NVIDIA.

Ціна акцій NVDA з початку року. Джерело: Google

Лише за один рік NVDA зросла втричі, з $1T до $3T ринкової капіталізації. Вона навіть перегнала Біткоїн протягом того ж періоду.

Звичайно, деяка частина цього - це хайп щодо штучного інтелекту. Але велика частина ґрунтується на реальності. Компанія NVIDIA звітувала про 60 мільярдів доларів прибутку за фінансовий рік 2024, що становить приголомшливе зростання на 126% порівняно з 2023 роком. Цей ріст був зумовлений тим, що великі технологічні компанії взялися за графічні процесори в глобальній гонці за штучним загальним інтелектом.

Так чому я це пропустив?

Протягом двох років я був націлений на криптовалюту і не звертав уваги на те, що відбувалося в галузі штучного інтелекту. Це була велика помилка, і вона все ще їсть мене.

Але я не роблю ту саму помилку вдруге.

Сьогодні Crypto AI відчувається дивно схожим. Ми на межі вибуху інновацій. Паралелі з Каліфорнійською золотою лихоманкою середини XIX століття важко ігнорувати - промисли та міста з’являлися за одну ніч, інфраструктура розвивалася з розривом швидкості, і багатства здобували ті, хто осмілився стрибнути.

Як NVIDIA на початкових етапах, Crypto AI буде очевидним у подальшому.

УЧастина I моєї дисертації, Я пояснив, чому Крипто AI є найбільш захоплюючою можливістю для інвесторів та будівельників сьогодні.

Ось швидкий огляд:

  • Багато хто ще відкидають це як “вапорвар”.
  • Крипто AI знаходиться на початковому етапі — ймовірно, за 1-2 роки від піку хайпу.
  • Існує можливість зростання понад 230 млрд доларів у цій сфері, як мінімум.

В своїй основі Crypto AI - це штучний інтелект з криптовою інфраструктурою, накладеною зверху. Це означає, що ймовірніше, що він буде слідувати експоненціальному траєкторії зростання штучного інтелекту, ніж більший ринок криптовалют. Так що, щоб залишатися вперед, вам потрібно слідкувати за останніми дослідженнями зі штучного інтелекту на Arxiv та спілкуватися з засновниками, які вважають, що вони будують наступну велику річ.

У частині II моєї дисертації я детально розгляну чотири найбільш перспективні підгалузі у сфері Крипто ШІ:

  1. Децентралізований обчислення: Навчання, Висновок & ринки GPU
  2. Мережі даних
  3. Перевірна ШІ
  4. AI Агенти, що живуть на ланцюжку

Цей матеріал є кульмінацією тижнів глибоких досліджень і розмов із засновниками та командами в ландшафті криптоштучного інтелекту. Він не призначений для того, щоб бути виснажливим глибоким зануренням у кожен сектор — це кроляча нора на інший день.

Замість цього розглядайте це як високорівневу дорожню карту, створену для підживлення цікавості, точного налаштування вашого дослідження та керівництва думками про інвестиції.

Відображення ландшафту

Я уявляю децентралізований стек штучного інтелекту як шарову екосистему: вона починається з децентралізованого обчислення та відкритих мереж даних з одного боку, які забезпечують навчання моделей децентралізованого штучного інтелекту.

Кожен висновок потім перевіряється — як вхідні, так і вихідні дані — за допомогою поєднання криптографії, криптоекономічних стимулів та мереж оцінювання. Ці перевірені виводи потім потрапляють до штучних інтелектуальних агентів, які можуть працювати автономно на ланцюжку, а також споживчих і корпоративних застосунків штучного інтелекту, яким користувачі дійсно можуть довіряти.

Координаційні мережі все об’єднують, забезпечуючи безшовну комунікацію та співпрацю в екосистемі.

У цьому візії будь-хто, хто будує в галузі штучного інтелекту, може використовувати один або декілька рівнів цього стеку, залежно від їх конкретних потреб. Чи використовуючи децентралізоване обчислення для тренування моделі, чи використовуючи мережі оцінки для забезпечення високоякісних виводів, стек пропонує цілий ряд варіантів.

Завдяки вбудованій композиції блокчейну, я вважаю, що ми природно рухаємося до модулярного майбутнього. Кожен шар стає гіперспеціалізованим, протоколи оптимізовані для відокремлених функцій, а не для загального інтегрованого підходу.

Джерело: topology.vc

Спостерігається камбрійська експлозія стартапів, які будуються на кожному рівні децентралізованого стека штучного інтелекту, більшість з них були засновані всього за останні 1-3 роки. Це очевидно: ми все ще на початковому етапі.

Найбільш повна і актуальна карта ландшафту стартапів Crypto AI, яку я бачив, підтримує Кейсі і її команда в topology.vc. Це невичерпний ресурс для всіх, хто відстежує цей простір.

Приглядаючись до криптовалютних підсекторів штучного інтелекту, я постійно запитую себе: наскільки великі тут можливості? Я не цікавлюся малими ставками — я шукаю ринки, які можуть масштабуватися до сотень мільярдів.

1. Ринковий розмір

Почнемо з розміру ринку. Оцінюючи підсектор, я питаю себе: чи створює він абсолютно новий ринок, чи руйнує існуючий?

Возьмемо, наприклад, децентралізоване обчислення. Це руйнівна категорія, потенціал якої можна оцінити, розглядаючи встановлений ринок хмарних обчислень, вартість якого становить ~$680 млрд сьогодніі очікується досягнути 2,5 трлн доларів у 2032 році.

Нові ринки без попередників, такі як штучний інтелект, важче кількісно оцінити. Без історичних даних їх оцінка включає комбінацію усвідомлених припущень і перевірки на практиці щодо проблем, які вони вирішують. І підвалина полягає в тому, що іноді те, що виглядає як новий ринок, насправді просто є рішенням, яке шукає проблему.

2. Часування

Час все рішає. Технології мають тенденцію покращуватися і дешевшати з часом, але темпи прогресу варіюються.

Наскільки зрілою є технологія в певному субсекторі? Вона готова до масштабування, чи все ще знаходиться на етапі досліджень, і практичні застосування віддалені на кілька років? Час визначає, чи заслуговує сектор на негайну увагу, чи його слід залишити в категорії “очікуйте і побачите”.

Возьмем полностью гомоморфное шифрование (FHE) в качестве примера: потенциал неоспорим, но сегодня оно все еще слишком медленное для широкого использования. Вероятно, нам потребуется несколько лет, чтобы увидеть его широкую жизнеспособность. Концентрируясь в первую очередь на секторах, близких к масштабированию, я могу использовать свое время и энергию там, где набирает силу - и появляются возможности.

Якщо б я мав картографувати ці категорії на графіку розміру проти часу, це виглядало б приблизно так. Пам’ятайте, що це більше концептуальний нарис, ніж жорсткий посібник. Тут багато відтінків, наприклад, в межах перевірної інференції різні підходи, такі як zkML та opML, перебувають на різних рівнях готовності до використання.

З цим сказано, я впевнений, що масштаб штучного інтелекту буде настільки великим, що навіть те, що сьогодні виглядає “нишевим”, може перетворитися на значний ринок.

Варто також зауважити, що технологічний прогрес не завжди відбувається по прямій лінії - він часто відбувається стрибками. Мої погляди на часування та ринковий обсяг зміняться, коли відбудуться нові прориви.

Маючи на увазі цю структуру, давайте розберемо кожен підсектор.

Сектор 1: Децентралізований обчислень

Коротко кажучи;

  • Децентралізоване обчислення є основою децентралізованої штучної інтелекту.
  • Ринки відеокарт, децентралізоване навчання та децентралізоване висновки глибоко взаємопов’язані та процвітають разом.
  • Сторона поставки зазвичай постачається з невеликих середніх дата-центрів та споживацьких відеокарт.
  • Попит наразі невеликий, але зростає. Сьогодні він приходить від користувачів, які чутливі до цін та нечутливі до затримок, а також від менших стартапів у галузі штучного інтелекту.
  • Найбільшим викликом для ринків відеокарт Web3 сьогодні є фактично їхнє працювання.
  • Організація використання графічних процесорів у децентралізованій мережі потребує висококваліфікованої інженерної роботи та добре продуманої, надійної архітектури мережі.

1.1. Ринки графічних процесорів / обчислювальних мереж

Декілька команд Crypto AI позиціонують себе для того, щоб скористатися дефіцитом GPU в порівнянні з попитом, будуючи децентралізовані мережі, які використовують глобальний пул потенційної обчислювальної потужності.

Основна пропозиція вартості для ринків GPU подвійна:

  1. Ви можете отримати доступ до обчислень «до 90% дешевше» ніж AWS, що походить від (1) видалення посередників та (2) відкриття сторони постачання. По суті, ці ринки дозволяють вам використовувати найнижчу маржинальну вартість обчислень у всьому світі.
  2. Більша гнучкість: немає договорів з прив’язкою, немає KYC, немає очікування.
  3. Стійкість до цензури

Для вирішення проблеми подання на ринку ці ринки забезпечують обчислення з:

  • Видатні ГПУ для підприємств (наприклад, A100s, H100s) від невеликих-середніх центрів обробки даних, які мають труднощі з пошуком попиту самостійно або біткоїн-майнерів, які хочуть диверсифікувати свою діяльність. Я також знаю команди, які працюють з великими урядовими інфраструктурними проектами, де центри обробки даних будуються в рамках ініціативи з росту технологій. Ці постачальники часто мають стимули зберігати свої ГПУ в мережі, що допомагає їм скомпенсувати амортизаційні витрати на їхні ГПУ.
  • Графічні процесори споживчого класу від мільйонів геймерів і домашніх користувачів, які підключають свої комп’ютери до мережі в обмін на заохочення токенів

З іншого боку, попит на децентралізоване обчислення сьогодні виникає від:

  1. Чутливі до ціни та затримки користувачі. У цьому сегменті пріоритетом є доступність, а не швидкість. Подумайте про дослідників, які досліджують нові галузі, про незалежних розробників штучного інтелекту та інших користувачів, які економлять на витратах, яким не потрібна обробка в реальному часі. Через обмеження бюджету багато з них можуть мати проблеми з традиційними гіперскейлерами, такими як AWS або Azure. Оскільки вони досить розподілені серед населення, цільовий маркетинг має вирішальне значення для залучення цієї групи.
  2. Менші стартапи зі штучним інтелектом стикаються з викликами забезпечення гнучких, масштабованих обчислювальних ресурсів без укладання довгострокових контрактів з провідними хмарними постачальниками. Розвиток бізнесу є важливим у привертанні цього сегмента, оскільки вони активно шукають альтернативи замиканню на гіпершкалерів.
  3. Крипто AI стартапи, що будують децентралізовані продукти штучного інтелекту, але без власного обсягу обчислень, будуть потребувати використання ресурсів однієї з цих мереж.
  4. Ігри у хмарі: Незважаючи на те, що це не безпосередньо залежить від штучного інтелекту, ігри у хмарі є зростаючим джерелом попиту на ресурси GPU.

Головне, що треба пам’ятати: розробники завжди надають перевагу витратам та надійності.

Реальний виклик: попит, а не пропозиція

Стартапи в цій сфері часто рекламують розмір своїх мереж поставок GPU як ознаку успіху. Але це вводить в оману - це найбільше числове показник самовдоволеності.

Справжнім обмеженням є не постачання, а попит. Головні показники, які слід відстежувати, - це не кількість доступних графічних процесорів, а використання та кількість фактично орендованих графічних процесорів.

Токени відмінно працюють на підтриманні постачальної сторони, створюючи необхідні стимули для швидкого масштабування. Однак вони самі по собі не вирішують проблему попиту. Справжнім випробуванням є досягнення такого стану продукту, коли потенційний попит матеріалізується.

Хасіб Куреши (Dragonfly) каже найкраще:

Зробити мережі обчислювальних мереж дійсно працюють

Навпаки, на відміну від загальноприйнятої думки, найбільшою перепоною для ринків розподіленого GPU web3 сьогодні є просто їх належне функціонування.

Це не є тривіальною проблемою.

Організація роботи ГПУ по всій розподіленій мережі є складною задачею, яка включає в себе безліч викликів - розподіл ресурсів, динамічне масштабування робочого навантаження, балансування навантаження між вузлами та ГПУ, управління затримкою, передача даних, толерантність до відмов та робота з різноманітним апаратним забезпеченням, розкиданим по різних географічних регіонах. Я міг би продовжувати далі і далі.

Для досягнення цього потрібна серйозна інженерія та добре розроблена мережева архітектура.

Щоб підкреслити це, розгляньте Kubernetes від Google. Він широко вважається золотим стандартом оркестрації контейнерів, автоматизуючи процеси, такі як балансування навантаження та масштабування в розподілених середовищах - дуже схожі виклики, з якими стикаються розподілені мережі GPU. Сама Kubernetes була побудована на понад десятилітньому досвіді Google, і навіть тоді знадобилося кілька років безперервної ітерації, щоб зробити все правильно.

Деякі ринки обчислювальних потужностей GPU, які вже працюють сьогодні, можуть обробляти невеликі навантаження, але проблеми починаються, як тільки вони намагаються масштабуватися. Я підозрюю, що це тому, що вони були побудовані на слабко спроектованих архітектурних засадах.

Ще одним викликом / можливістю для децентралізованих обчислювальних мереж є забезпечення надійності: перевірка того, що кожен вузол дійсно надає обчислювальну потужність, яку він заявляє. Наразі це залежить від репутації мережі, і в деяких випадках постачальники обчислювальних послуг ранжируються за балами репутації. Блокчейн, здається, є природним рішенням для систем бездовір’я. Стартапи, такі як GensynіСфероннамагаються досягти безпідписної моделі у вирішенні цього питання.

Сьогодні багато команд web3 все ще мають складнощі з цими викликами, що означає, що можливості відкриті.

Розмір децентралізованого ринку обчислень

Як великий ринок децентралізованих обчислювальних мереж?

Сьогодні, це, ймовірно, лише незначна частка від $680B - $2.5T галузі хмарних обчислень. Однак, незважаючи на додаткове тертя для користувачів, завжди буде певний попит, поки витрати залишаються нижчими, ніж в традиційних постачальників.

Я вважаю, що витрати залишаться нижчими в найближчій до середньострокової перспективі через поєднання токенів-субсидій та розблокування постачання від користувачів, які не є ціново чутливі (наприклад, якщо я можу здавати в оренду свій ігровий ноутбук за додаткові кошти, мені все одно, чи це $20 або $50 на місяць)

Але справжній потенціал зростання для децентралізованих обчислювальних мереж і справжнє розширення їх TAM прийде, коли:

  1. Децентралізоване навчання моделей штучного інтелекту стає практичним
  2. Попит на висновки буксирує та існуючі центри обробки даних не можуть його задовольнити. Це вже починає розгортатися. Дженсен Хуанг каже, що попит на висновки зростає.збільшити „мільярд разів”.
  3. З’являються належні угоди про рівень обслуговування (SLA), що вирішує критичну перешкоду для впровадження у підприємствах. Наразі децентралізовані обчислення працюють на основі найкращих зусиль, що залишає користувачів з різними рівнями якості обслуговування (наприклад, час безвідмовної роботи у відсотках). З наявністю SLA ці мережі можуть пропонувати стандартизовані показники надійності та продуктивності, роблячи децентралізовані обчислення життєздатною альтернативою традиційних постачальників хмарних обчислень.

Децентралізоване, необмежене обчислення становить базовий рівень - фундаментальну інфраструктуру для децентралізованої AI екосистеми.

Незважаючи на постійне розширення ланцюга постачання кремнію (тобто GPU), я вважаю, що ми лише на початку ери інтелекту людства. Буде нестримний попит на обчислення.

Слідкуйте за точкою перегину, яка може спричинити значне переоцінювання всіх робочих ринків GPU. Це, ймовірно, відбудеться незабаром.

Інші примітки:

  • Ринок виключної графічної обробки (GPU) переповнений конкуренцією серед децентралізованих платформ і також зростання web2 штучного інтелекту небокрайніхподобається Vast.ai та Lambda.
  • Малі вузли (наприклад, 4 x H100) не користуються великим попитом через їх обмежене використання, але вдачі в пошуку когось, хто продає великі кластери - вони все ще мають серйозний попит.
  • Чи збере домінуючий гравець усі обчислювальні ресурси для децентралізованих протоколів, чи вони залишаться роздробленими між кількома ринками? Я нахиляюся до першого варіанту та степеневого розподілу результатів, оскільки консолідація часто призводить до ефективності в інфраструктурі. Але це займе час, і тим часом, роздробленість і безлад продовжуються.
  • Розробники хочуть зосередитися на створенні додатків, а не на розгортанні та налаштуванні. Майданчики повинні абстрагувати ці складнощі, зробивши доступ до обчислень як можна менш тертим.

1.2. Децентралізована тренування

У короткому вигляді; не вдаючись в подробиці

  • Якщо закони про масштабування збережуться, навчання наступного покоління передових моделей штучного інтелекту в одному центрі обробки даних одного дня стане фізично неможливим.
  • Навчання моделей ШІ вимагає великої кількості передачі даних між GPU. Низька швидкість передачі даних (інтерконект) між розподіленими GPU часто є найбільшою перепоною.
  • Дослідники вивчають кілька підходів одночасно, і відбуваються прориви (наприклад, Open DiLoCo, DisTrO). Ці досягнення будуть накопичуватися і посилюватися, прискорюючи прогрес у просторі.
  • Майбутнє децентралізованого навчання, ймовірно, полягає у менших, спеціалізованих моделях, розроблених для нішевих застосувань, а не фронтових моделях, спрямованих на штучний загальний інтелект.
  • Запит на виведення буде підійматися вгору з переходом до моделей, таких як o1 від OpenAI, що створює можливості для децентралізованих мереж виведення.

Уявіть собі: величезна, змінююча світ модель штучного інтелекту, не розроблена в секретних елітних лабораторіях, але оживлена мільйонами звичайних людей. Геймери, чиї GPU зазвичай виробляють кінематографічні вибухи Call of Duty, тепер використовують своє обладнання для чогось більшого - відкритої, колективно власної моделі штучного інтелекту без центральних ворітників.

У цьому майбутньому моделі фундаментального масштабу не є лише областю провідних лабораторій з штучного інтелекту.

Але давайте зберемо цю візію в реальності сьогодення. Наразі переважна більшість важких тренувань штучного інтелекту залишається прив’язаною до централізованих дата-центрів, і це, ймовірно, буде нормою протягом певного часу.

Компанії, подібні до OpenAI, масштабують свої великі кластери. Елон Маск недавнооголошенощо xAI наближається до завершення центру обробки даних, що має еквівалент 200 000 GPU H100.

Але це не тільки про кількість відеокарт. Використання потужності FLOPS моделі (MFU) - метрика, яка була введена вСтаття Google PaLMу 2022 році відстежує, наскільки ефективно використовується максимальна потужність GPU. Дивно, що MFU часто коливається навколо 35-40%.

Чому так низько? Хоча продуктивність відеокарт зростає з кожним роком відповідно до закону Мура, покращення мережі, пам’яті та зберігання значно відстають, створюючи гальмування. В результаті відеокарти часто просто бездіяльні, чекаючи на дані.

Навчання штучного інтелекту залишається високоцентралізованим і сьогодні через одне слово — Ефективність.

Навчання великих моделей залежить від таких технік, як:

• Паралельна обробка даних: Розбиття наборів даних на кілька GPU для виконання операцій паралельно, що прискорює процес навчання.

• Паралелізм моделі: Розподіл частин моделі між GPU, щоб обійти обмеження пам’яті.

Ці методи вимагають, щоб графічні процесори постійно обмінювалися даними, що робить швидкість з’єднання — швидкість, з якою дані передаються між комп’ютерами в мережі — абсолютно важливою.

Коли навчання моделі штучного інтелекту може коштувати понад 1 мільярд доларів, кожен приріст ефективності має значення.

З їх високошвидкісними міжз’язками централізовані центри обробки даних забезпечують швидкий обмін даними між графічними процесорами та створюють значні економічні вигоди під час навчання, яку децентралізовані налаштування не можуть забезпечити…до цих пір.

Преодолення повільної швидкості міжз’єднання

Якщо ви спілкуєтесь з людьми, які працюють у сфері ШІ, багато з них скажуть вам, що децентралізована тренування просто не працюватиме.

У децентралізованих налаштуваннях кластери GPU фізично не розташовані поруч, тому передача даних між ними відбувається набагато повільніше і стає проблемою. Для навчання потрібно, щоб GPU синхронізувалися та обмінювалися даними на кожному кроці. Чим далі вони знаходяться один від одного, тим вище затримка. Вища затримка означає повільнішу швидкість навчання та вищі витрати.

Що може зайняти кілька днів в централізованому центрі обробки даних, може розтягнутися на два тижні за децентралізованим підходом за вищою вартістю. Це просто не є життєздатним.

Але це має змінитися.

Хороша новина в тому, що зацікавленість у дослідженнях розподіленого навчання значно зросла. Дослідники вивчають одночасно декілька підходів, як свідчить про це бурхливість досліджень та опублікованих статей. Ці досягнення будуть накладатися та компонуватися, прискорюючи прогрес у цій галузі.

Це також про тестування виробництва та перевірку, наскільки ми можемо поставити перед собою виклик.

Деякі децентралізовані техніки навчання вже можуть працювати з меншими моделями в повільних мережах зв’язку. Зараз, передові дослідження намагаються розширити ці методи на все більші моделі.

  • Наприклад, Prime Intellect’s відкрити документ DiCoLo демонструє практичний підхід, який передбачає «острівці» графічних процесорів, які виконують 500 локальних кроків перед синхронізацією, скорочуючи вимоги до пропускної здатності до 500 разів. Те, що починалося як дослідження Google DeepMind у менших моделях, тепер було масштабовано для навчання моделі з 10 мільярдами параметрів у листопаді, а сьогодні повністю відкритого вихідного коду.
  • Дослідження Nousпіднімає планку за допомогою своєї рамки DisTrO, яка використовує оптимізатори для зниження вимог до між-GPU комунікації до вражаючих 10 000 разів під час навчання моделі з 1,2 млрд параметрів.
  • І моментум продовжує набирати обертів. У грудні Nous оголосила передтренування моделі з 15 млрд параметрів з кривою втрат (як зменшується помилка моделі з часом) та швидкістю збіжності (швидкість стабілізації продуктивності моделі), що відповідає або перевищує результати, які зазвичай спостерігаються при централізованих тренуваннях. Так, краще, ніж централізовані.
  • SWARM Parallelism та DTFMHE - інші методи навчання дуже великих моделей ШІ на різних типах пристроїв, навіть якщо ці пристрої мають різну швидкість та підключення.

Ще однією проблемою є керування різноманітним спектром апаратного забезпечення графічних процесорів, включаючи графічні процесори споживчого класу з обмеженою пам’яттю, які є типовими для децентралізованих мереж. Такі методи, як паралелізм моделей (розбиття шарів моделі між пристроями), можуть допомогти зробити це можливим.

Майбутнє децентралізованої тренування

Поточні децентралізовані методи навчання все ще обмежуються розмірами моделей, які далеко не досягають передових (GPT-4, за повідомленнями, має приблизно трильйон параметрів, що в 100 разів більше, ніж модель Prime Intellect з 10 млрд параметрів). Щоб дійсно масштабувати, нам знадобляться прориви в архітектурі моделей, краща мережева інфраструктура та розумніша розподіл завдань між пристроями.

І ми можемо мріяти велико. Уявіть світ, де децентралізоване навчання агрегує більше обчислювальної потужності GPU, ніж навіть найбільші централізовані центри обробки даних коли-небудь могли б зібрати.

Pluralis Research(гостра команда в децентралізованому навчанні, яку слід уважно стежити) стверджує, що це не просто можливо - це неодмінно. Централізовані центри даних обмежені фізичними обмеженнями, такими як простір та наявність електроенергії, тоді як децентралізовані мережі можуть використовувати практично необмежений резерв глобальних ресурсів.

Навіть Дженсен Хуан з NVIDIA визнав, що асинхронне децентралізоване навчанняможе розблокувати справжній потенціал масштабування штучного інтелекту. Розподілені мережі навчання також мають більшу стійкість до помилок.

Таким чином, в одному потенційному майбутньому, найпотужніші моделі штучного інтелекту в світі будуть навчатися децентралізованим чином.

Це захоплююча перспектива, але я ще не повністю переконаний. Нам потрібні більш переконливі докази того, що децентралізоване навчання найбільших моделей технічно та економічно доцільне.

Ось де я бачу величезну перспективу: Солодке місце децентралізованого тренування може бути в менших, спеціалізованих, відкритих моделях, призначених для цільових випадків, а не конкурування з ультра-великими моделями AGI. Деякі архітектури, особливо недекоративні моделі, вже доводять свою природну придатність для децентралізованих налаштувань.

І є ще одна складова цієї головоломки: токени. Коли децентралізований тренування стає можливим в масштабі, токени можуть відігравати вирішальну роль у стимулюванні та винагородженні учасників, ефективно створюючи ці мережі.

Шлях до цієї візії довгий, але прогрес дуже обнадійливий. Покращення у децентралізованому навчанні буде корисним для всіх — навіть великих технологічних компаній та провідних дослідницьких лабораторій з штучного інтелекту — оскільки масштаб майбутніх моделей перевищить потужність одного центру обробки даних.

Майбутнє розподілене. І коли технологія має такий широкий потенціал, історія показує, що вона завжди стає кращою й швидшою, ніж усі очікують.

1.3. Децентралізоване Висновок

Зараз більшість обчислювальної потужності в штучному інтелекті направлена на тренування масштабних моделей. Найкращі лабораторії штучного інтелекту знаходяться в гонці озброєнь для розробки найкращих базових моделей та в кінцевому підсумку досягнення загальної штучної інтелектуальної системи (ЗШІ).

Але ось моя думка: ця інтенсивна увага до обчислень під час навчання перейде до висновків у наступні роки. Оскільки штучний інтелект все більше вбудовується в застосунки, які ми використовуємо щоденно - від охорони здоров’я до розваг, ресурси обчислень, необхідні для підтримки висновків, будуть приголомшливими.

І це не просто спекуляція. Масштабування обчислень під час інференції є останнім модним словом в галузі штучного інтелекту. OpenAI нещодавно випустила попередню / міні-версію своєї останньої моделі o1 (кодове ім’я: Strawberry), і головна зміна? Вона витрачає час на роздуми, спочатку запитуючи себе, які кроки вона повинна зробити, щоб відповісти на запитання, а потім проходить кожен з цих кроків.

Ця модель розроблена для більш складних завдань, що вимагають багато планування, наприклад,розв’язування кросвордів—і вирішує проблеми, які потребують глибшого мислення. Ви помітите, що він працює повільніше, затрачаючи більше часу на генерацію відповідей, але результати набагато обдуманіші та витончені. Також його використання набагато дорожче ( 25x вартості GPT-4)

Зміна фокусу очевидна: наступний стрибок у продуктивності ШІ не буде здійснюватися лише за рахунок тренування більших моделей, але й за рахунок масштабування використання обчислення під час інференсу.

Якщо ви хочете прочитати більше, кілька дослідженьдокументипродемонструвати:

  • Масштабування обчислення висновків за допомогою повторного вибірки приводить до значних покращень у різних завданнях.
  • Існує експоненціальний закон масштабування для інференції також.

Після того як потужні моделі навчили, їх завдання виведення - коли моделі виконують різні завдання - можуть бути перенесені на децентралізовані обчислювальні мережі. Це має дуже багато сенсу, оскільки:

  • Виведення є значно менш затратним за ресурсами, ніж навчання. Після навчання моделі можуть бути стиснуті та оптимізовані за допомогою таких технік, як квантифікація, обрізання або дистиляція. Вони навіть можуть бути розбиті за допомогою паралелізму тензора або конвеєра, щоб працювати на звичайних споживчих пристроях. Вам не потрібна високопродуктивна GPU для виконання виведення.
  • Вже відбувається.Exo Labsвстановило, як запустити модель Llama3 з 450 млрд. параметрів на обладнанні споживачів, такому як MacBooks та Mac Minis. Розподілення висновків на багато пристроїв дозволяє ефективно та економічно обробляти великі робочі навантаження.
  • Кращий досвід користувача. Виконання обчислень ближче до користувача зменшує затримку, що є критичним для реального часу застосувань, таких як гра, AR або автопілотні автомобілі. Кожна мілісекунда має значення.

Подумайте про децентралізовану інференцію, як про CDN (мережа доставки контенту) для штучного інтелекту: замість швидкої доставки веб-сайтів, підключаючись до близьких серверів, децентралізована інференція використовує місцеву обчислювальну потужність для надання відповідей штучного інтелекту в рекордно короткі терміни. Застосовуючи децентралізовану інференцію, додатки штучного інтелекту стають більш ефективними, реагують швидше й є більш надійними.

Тенденція очевидна. Новий чіп M4 Pro від Apple конкурент NVIDIA’sRTX 3070 Ti—GPU, що до недавнього часу був власністю відданих геймерів. Апаратне забезпечення, яке у нас вже є, все більше здатне впоратися з передовими навантаженнями штучного інтелекту.

Крипто’s Value-Add

Для успішного функціонування децентралізованих мереж висновків повинні існувати переконливі економічні стимули для участі. Вузли в мережі повинні бути відшкодовані за свій внесок у обчислення. Система повинна забезпечити справедливий та ефективний розподіл винагород. Географічне різноманіття є важливим, що дозволяє зменшити затримку для завдань висновків та покращити стійкість до відмов.

І найкращий спосіб будувати децентралізовані мережі? Крипто.

Токени надають потужний механізм для вирівнювання інтересів учасників, забезпечуючи, що всі працюють на спільну мету: масштабування мережі та збільшення вартості токена.

Токени також надихають зростання мережі. Вони допомагають вирішити класичну проблему курки і яйця, яка призводить до зупинки більшості мереж, заохочуючи ранніх прихильників та стимулюючи участь з першого дня.

Успіх Bitcoin та Ethereum підтверджує цей факт - вони вже об’єднали найбільші пулі обчислювальної потужності на планеті.

Децентралізовані мережі виводу наступні у черзі. З географічним розмаїттям вони зменшують затримку, покращують стійкість до помилок і наближають штучний інтелект до користувача. І завдяки крипто-базованим стимулам вони будуть масштабуватися швидше і краще, ніж будь-коли традиційні мережі.

Відмова від відповідальності:

  1. Ця стаття розміщена за дозволом [[](https://www.chainofthought.xyz/p/our-crypto-ai-thesis-part-ii-decentralised-compute)[Ланцюг думок](https://www.chainofthought.xyz/)\]. Усі авторські права належать оригінальному автору [Тен Ян]. Якщо є заперечення до цього перевидання, будь ласка, зв’яжіться з Gate Learnкоманда, і вони швидко з цим впораються.
  2. Відмова від відповідальності: погляди та думки, висловлені в цій статті, належать виключно автору і не становлять будь-яких інвестиційних порад.
  3. Переклади статті на інші мови виконуються командою gate Learn. Якщо не вказано інше, копіювання, поширення або плагіатування перекладених статей заборонено.
Comece agora
Inscreva-se e ganhe um cupom de
$100
!