16 лютого OpenAI анонсувала свою останню модель генерації дифузійного перетворення тексту у відео під назвою "Sora", яка стала ще однією віхою в розвитку генеративного ШІ завдяки своїй здатності створювати високоякісні відео з широким спектром візуальних типів даних. На відміну від інструментів ШІ-генерації відео, таких як Pika, які генерують кілька секунд відео з декількох зображень, Sora тренується в стислому латентному просторі відео та зображень, розбиваючи їх на просторово-часові фрагменти для масштабованої генерації відео. Більше того, модель демонструє можливості симуляції як фізичного, так і цифрового світів, а її 60-секундна демонстрація описується як "універсальний симулятор фізичного світу".
Sora продовжує технічний шлях "вихідні дані - трансформатор - дифузія - поява", який спостерігався в попередніх моделях GPT, що свідчить про те, що зрілість її розвитку також залежить від обчислювальних потужностей. Враховуючи більший обсяг даних, необхідний для відеотренінгу порівняно з текстовим, очікується подальше зростання попиту на обчислювальні потужності. Однак, як обговорювалося в нашій попередній статті "Огляд перспективного сектору: Ринок децентралізованих обчислювальних потужностей", було досліджено важливість обчислювальних потужностей в епоху ШІ, і зі зростанням популярності ШІ з'явилися численні проекти обчислювальних потужностей, які сприяли зростанню вартості інших проектів Depin (сховища, обчислювальні потужності тощо). Окрім Депіна, ця стаття має на меті оновити та завершити попередні дискусії, розмірковуючи про іскри, які можуть виникнути від переплетення Web3 та ШІ, а також про можливості, які відкриває ця траєкторія в епоху штучного інтелекту.
Штучний інтелект (ШІ) - це галузь, що стрімко розвивається і спрямована на імітацію, розширення та збагачення людського інтелекту. З моменту свого зародження в 1950-х і 1960-х роках ШІ пройшов більш ніж півстолітню еволюцію, перетворившись на ключову технологію, що сприяє трансформації суспільства і різних галузей промисловості. Протягом цього шляху переплетений прогрес трьох основних дослідницьких напрямків - символізму, коннекціонізму та біхевіоризму - заклав підґрунтя для швидкого розвитку ШІ сьогодні.
Символізм, який також називають логіцизмом або міркуванням на основі правил, стверджує, що відтворення людського інтелекту через обробку символів є можливим. Цей підхід використовує символи для представлення та маніпулювання об'єктами, концепціями та їхніми взаємозв'язками в межах певної проблемної області, застосовуючи логічне міркування для вирішення проблем. Символізм досяг значних успіхів, особливо в експертних системах та представленні знань. Її основний принцип полягає в тому, що розумна поведінка може бути реалізована через маніпуляції з символами та логічне виведення, причому символи слугують високорівневими абстракціями реального світу.
Коннекціонізм, також відомий як нейромережевий підхід, прагне досягти інтелекту, віддзеркалюючи структуру та функціональність людського мозку. Ця методологія будує мережі, що складаються з численних простих процесорних одиниць, подібних до нейронів, і регулює міцність зв'язків між цими одиницями, подібно до синапсів, щоб полегшити навчання. Наголошуючи на навчанні та узагальненні на основі даних, коннекціонізм добре підходить для таких завдань, як розпізнавання образів, класифікація та безперервне відображення вводу-виводу. Глибоке навчання, еволюція коннекціонізму, досягло прориву в таких сферах, як розпізнавання зображень і мови, а також обробка природної мови.
Біхевіоризм, тісно пов'язаний з біміметичною робототехнікою та дослідженнями автономних інтелектуальних систем, підкреслює, що інтелектуальні агенти можуть навчатися через взаємодію з навколишнім середовищем. На відміну від попередніх підходів, біхевіоризм не зосереджується на моделюванні внутрішніх репрезентацій чи когнітивних процесів, а радше досягає адаптивної поведінки через цикл сприйняття-дія. Вона стверджує, що інтелект проявляється через динамічну взаємодію з навколишнім середовищем і навчання, що робить її особливо ефективною для мобільних роботів і адаптивних систем управління, які працюють у складних і непередбачуваних умовах.
Незважаючи на фундаментальні розбіжності, ці три напрямки досліджень можуть синергувати і доповнювати один одного в практичних дослідженнях і застосуваннях ШІ, спільно стимулюючи розвиток галузі.
Сфера контенту, створеного штучним інтелектом (AIGC), що стрімко розвивається, являє собою еволюцію і застосування коннекціонізму, полегшуючи створення нового контенту, імітуючи людську творчість. Ці моделі навчаються за допомогою великих наборів даних і алгоритмів глибокого навчання, щоб розпізнавати основні структури, взаємозв'язки і закономірності в даних. На основі даних, отриманих від користувача, вони створюють різноманітні результати, включаючи зображення, відео, код, музику, проекти, переклади, відповіді на запитання та текст. Сьогодні AIGC складається з трьох основних елементів: Глибоке навчання (DL), великі дані та масивні обчислювальні потужності.
Глибоке навчання, підгрупа машинного навчання (ML), використовує алгоритми, змодельовані на основі нейронних мереж людського мозку. Подібно до того, як людський мозок складається з взаємопов'язаних нейронів, що обробляють інформацію, нейронні мережі глибокого навчання складаються з декількох шарів штучних нейронів, що виконують обчислення в комп'ютері. Ці штучні нейрони, або ноди, використовують математичні операції для обробки даних і вирішення складних завдань за допомогою алгоритмів глибокого навчання.
Нейронні мережі складаються з шарів: вхідного, прихованого та вихідного, з параметрами, що пов'язують ці шари.
- Вхідний шар: Перший шар нейронної мережі, який отримує зовнішні вхідні дані. Кожен нейрон у цьому шарі відповідає характеристиці вхідних даних. Наприклад, при обробці даних зображень окремі нейрони можуть представляти значення пікселів.
- Приховані шари: Слідом за вхідним шаром, приховані шари обробляють і передають дані через мережу. Ці шари аналізують інформацію на різних рівнях, адаптуючи свою поведінку до нових вхідних даних. Мережі глибокого навчання можуть мати сотні прихованих шарів, що дозволяє проводити багатосторонній аналіз проблем. Наприклад, класифікуючи незнайому тварину на зображенні, мережа може порівняти її з відомими тваринами, оцінюючи такі характеристики, як форма вух, кількість ніг і розмір зіниць. Приховані шари функціонують аналогічно, кожен з них обробляє різні ознаки тварин, щоб допомогти в точній класифікації.
- Вихідний шар: Останній шар нейронної мережі, що виробляє вихідні дані мережі. Нейрони в цьому шарі представляють потенційні вихідні категорії або значення. У задачах класифікації кожен нейрон може відповідати певній категорії, тоді як у задачах регресії вихідний шар може містити один нейрон, значення якого прогнозує результат.
- Параметри: У нейронних мережах зв'язки між різними шарами представлені вагами і зміщеннями, які оптимізуються в процесі навчання, щоб мережа могла точно розпізнавати закономірності в даних і робити прогнози. Збільшення параметрів може підвищити модельну здатність нейронної мережі, тобто здатність навчатися і представляти складні закономірності в даних. Однак це також збільшує попит на обчислювальні потужності.
Ефективне навчання нейронних мереж, як правило, потребує великих, різноманітних, якісних та багатоджерельних даних. Такі дані є наріжним каменем для навчання та перевірки моделей машинного навчання. Завдяки аналізу великих даних моделі машинного навчання можуть виявляти закономірності та взаємозв'язки в даних, полегшуючи прогнозування або класифікацію.
Складна багатошарова структура нейронних мереж, численні параметри, вимоги до обробки великих даних, ітеративні методи навчання (що включають повторювані обчислення прямого і зворотного поширення, в тому числі обчислення функцій активації і втрат, обчислення градієнтів і оновлення ваг), потреби в високоточних обчисленнях, можливості паралельних обчислень, методи оптимізації і регуляризації, а також процеси оцінки і валідації моделей в сукупності сприяють значним обчислювальним навантаженням.
Sora, остання модель ШІ відеопокоління OpenAI, знаменує собою значний прогрес у здатності штучного інтелекту обробляти та розуміти різноманітні візуальні дані. Використовуючи мережі стиснення відео та методи просторово-часових виправлень, Sora може перетворювати величезні обсяги візуальних даних, знятих по всьому світу та з різних пристроїв, в уніфіковане представлення. Ця можливість дозволяє ефективно обробляти та розуміти складний візуальний контент. Sora використовує текстові моделі дифузії для створення відео або зображень, які тісно пов'язані з текстовими підказками, демонструючи неабияку креативність та адаптивність.
Незважаючи на прориви Sora у створенні відео та імітації реальних взаємодій, вона стикається з певними обмеженнями. Серед них - точність моделювання фізичного світу, послідовність у створенні довгих відео, розуміння складних текстових інструкцій та ефективність у навчанні та створенні. По суті, Sora слідує технічній траєкторії "великі дані - трансформатор - дифузія - поява", чому сприяє монопольна обчислювальна потужність OpenAI та перевага першопрохідця, що призводить до своєрідної естетики грубої сили. Однак інші ШІ-компанії все ще мають потенціал, щоб перевершити Sora завдяки технологічним інноваціям.
Хоча зв'язок Sora з блокчейном залишається скромним, очікується, що в найближчі один-два роки вплив Sora призведе до появи і швидкого розвитку інших високоякісних інструментів генерації ШІ. Очікується, що ці зміни вплинуть на різні сектори Web3, такі як GameFi, соціальні платформи, творчі платформи, Depin тощо. Отже, набуття загального розуміння Sora має важливе значення, а роздуми про те, як ШІ буде ефективно інтегруватися з Web3 в майбутньому, стають вирішальним фактором.
Як ми вже обговорювали раніше, фундаментальні компоненти, необхідні для генеративного ШІ, можна звести до трьох основних елементів: алгоритми, дані та обчислювальна потужність. І навпаки, ШІ, будучи універсальним інструментом з далекосяжним впливом на методи виробництва, революціонізує роботу галузей. Тим часом, значний вплив технології блокчейн є двояким: вона реструктуризує виробничі відносини та уможливлює децентралізацію. Таким чином, конвергенція цих двох технологій може призвести до появи чотирьох потенційних шляхів:
Цей розділ має на меті дати уявлення про сучасний ландшафт обчислювальних потужностей. У сфері ШІ обчислювальна потужність має величезне значення. Попит на обчислювальні потужності в ШІ, особливо після появи Sora, досяг безпрецедентного рівня. Під час Всесвітнього економічного форуму в Давосі, Швейцарія, у 2024 році генеральний директор OpenAI Сем Альтман підкреслив, що обчислювальна потужність та енергія наразі є головними обмеженнями, натякаючи на їх майбутній еквівалент валюті. Згодом, 10 лютого, Сем Альтман оголосив у Твіттері про революційний план залучення 7 трильйонів доларів США (що еквівалентно 40% ВВП Китаю у 2023 році) для революції у світовій напівпровідниковій індустрії, спрямований на створення напівпровідникової імперії. Раніше мої міркування щодо обчислювальних потужностей обмежувалися національними обмеженнями та корпоративними монополіями; однак уявлення про те, що один суб'єкт прагне домінувати у світовому напівпровідниковому секторі, є справді дивовижним.
Важливість децентралізованих обчислювальних потужностей очевидна. Функції блокчейну пропонують рішення для поширених проблем монополізації обчислювальних потужностей і непомірних витрат, пов'язаних з придбанням спеціалізованих графічних процесорів. З точки зору вимог ШІ, використання обчислювальних потужностей можна розділити на два аспекти: висновок і навчання. Проектів, спрямованих на навчання, небагато через складну інтеграцію, необхідну для децентралізованих мереж, і значні вимоги до апаратного забезпечення, що створює значні перешкоди для їх реалізації. І навпаки, завдання виведення є відносно простішими, з менш складним дизайном децентралізованої мережі та меншими вимогами до апаратного забезпечення і пропускної здатності, що робить їх більш доступними.
Ландшафт централізованих обчислювальних потужностей має величезний потенціал, який часто асоціюється з дескриптором "трильйонний рівень", і залишається дуже сенсаційною темою в епоху ШІ. Однак, спостерігаючи за безліччю нещодавніх проектів, багато з них видаються поспішно задуманими, спрямованими на те, щоб скористатися трендами. Хоча ці проекти часто виступають за децентралізацію, вони, як правило, обходять стороною дискусії про неефективність децентралізованих мереж. Більше того, існує помітний ступінь одноманітності в дизайні, оскільки численні проекти використовують схожі підходи (наприклад, L2 в один клік плюс дизайн для видобутку корисних копалин), що потенційно може призвести до невдач і ускладнити зусилля, спрямовані на те, щоб відрізнитися від традиційної гонки штучного інтелекту.
Алгоритми машинного навчання призначені для вивчення закономірностей і правил на основі даних, що дозволяє їм робити прогнози або приймати рішення на основі цих вивчених закономірностей. Через складність, пов'язану з їх розробкою та оптимізацією, алгоритми за своєю суттю є технологічно складними, вимагаючи глибокого досвіду та технологічних інновацій. Вони слугують основою для навчання моделей штучного інтелекту, визначаючи, як обробляти дані для отримання корисної інформації або прийняття рішень. Відомі алгоритми генеративного ШІ, такі як генеративні змагальні мережі (GAN), варіаційні автокодери (VAE) і трансформатори, розроблені для конкретних областей, таких як малювання, розпізнавання мови, переклад або створення відео, і є важливими для навчання спеціалізованих моделей ШІ.
Велика кількість алгоритмів і моделей з різними сильними сторонами викликає питання: чи можуть вони бути інтегровані в універсальну модель? Bittensor, нещодавно відомий проект, очолює зусилля в цьому напрямку, стимулюючи співпрацю між різними моделями та алгоритмами штучного інтелекту, тим самим сприяючи розробці більш ефективних і здібних моделей ШІ. Інші ініціативи, такі як Commune AI, зосереджені на сприянні співпраці у розробці коду, хоча обмін алгоритмами та моделями залишається проблемою через їхню пропрієтарну природу всередині АІ-компаній.
Концепція спільної екосистеми штучного інтелекту інтригує, оскільки вона використовує технологію блокчейн для зменшення недоліків, пов'язаних з ізольованими алгоритмами штучного інтелекту. Однак його здатність генерувати відповідну вартість ще не визначена. Існуючі AI-компанії, оснащені власними алгоритмами та моделями, мають потужні можливості для оновлення, ітерації та інтеграції своїх технологій. Наприклад, OpenAI швидко перейшов від ранніх моделей генерації тексту до багатодоменних генеративних моделей протягом двох років. Такі проекти, як Bittensor, можуть потребувати вивчення інноваційних шляхів у своїх цільових галузях, щоб ефективно конкурувати.
З спрощеної точки зору, інтеграція приватних даних для підживлення ШІ та анотування даних - це шляхи, які добре узгоджуються з технологією блокчейн. Основне занепокоєння викликає те, як запобігти небажаним даним і зловмисним діям. Крім того, зберігання даних може бути корисним для таких проектів Depin, як FIL та AR.
Якщо поглянути на це під більш складним кутом, то використання даних блокчейну для машинного навчання (ML) для вирішення проблеми доступності даних блокчейну представляє ще один привабливий напрямок, який досліджувала Giza.
Теоретично, дані блокчейну доступні в будь-який момент часу і відображають стан всього блокчейну. Однак для тих, хто не є частиною екосистеми блокчейну, доступ до цих великих наборів даних не є простим. Зберігання цілого блокчейну вимагає значного досвіду та спеціалізованих апаратних ресурсів.
Для подолання проблем з доступом до блокчейн-даних в індустрії з'явилося кілька рішень. Наприклад, провайдери RPC пропонують доступ до вузлів через API, а сервіси індексування полегшують пошук даних через SQL і GraphQL, відіграючи ключову роль у вирішенні цієї проблеми. Тим не менш, ці методи мають свої обмеження. Сервіси RPC не підходять для випадків використання з високою щільністю, що вимагають великих запитів до даних, і часто не задовольняють попит. Тим часом, хоча сервіси індексування пропонують більш структурований підхід до пошуку даних, складність протоколів Web3 робить побудову ефективних запитів надзвичайно складним завданням, іноді вимагаючи сотні або навіть тисячі рядків складного коду. Ця складність є значним бар'єром для фахівців, що займаються загальними даними, і тих, хто має обмежене розуміння тонкощів Web3. Сукупний вплив цих обмежень підкреслює необхідність більш доступного і зручного методу отримання і використання даних блокчейну, який міг би стимулювати більш широке застосування та інновації в цій галузі.
Таким чином, злиття ZKML (Zero-Knowledge Proof Machine Learning, яке полегшує навантаження машинного навчання на ланцюжок) з високоякісними даними блокчейну може потенційно створити набори даних, які вирішують проблеми доступності даних блокчейну. Штучний інтелект може значно знизити бар'єри для доступу до даних блокчейну. З часом розробники, дослідники та ентузіасти ML зможуть отримати доступ до більш якісних та релевантних наборів даних для створення ефективних та інноваційних рішень.
Після вибуху ChatGPT3 у 2023 році розширення можливостей ШІ для Dapps стало дуже поширеним напрямком. Широко застосовний генеративний ШІ можна інтегрувати за допомогою API, спрощуючи та покращуючи роботу платформ даних, торгових ботів, блокчейн-енциклопедій та інших додатків. Він також може функціонувати як чат-бот (наприклад, Myshell) або ШІ-компаньйон (наприклад, Sleepless AI), і навіть створювати NPC в блокчейн-іграх за допомогою генеративного ШІ. Однак, через низькі технічні бар'єри, більшість реалізацій є простими налаштуваннями після інтеграції API, а інтеграція з самими проектами часто недосконала, тому про неї рідко згадують.
З появою Sora я особисто вважаю, що розширення можливостей ШІ для GameFi (включно з метапростором) і творчих платформ стане основним напрямком руху вперед. Враховуючи висхідну природу поля Web3, неможливо створити продукти, які могли б безпосередньо конкурувати з традиційними іграми або креативними компаніями. Однак поява Sora має потенціал для виходу з цього глухого кута, можливо, протягом всього лише двох-трьох років. З демо-версії "Сори" здається, що вона здатна конкурувати з мікро-драматичними компаніями. Крім того, активна культура спільноти Web3 може сприяти виникненню безлічі цікавих ідей. Коли єдиною межею є уява, бар'єри між висхідною індустрією та традиційною індустрією, що розвивається зверху вниз, руйнуються.
Оскільки інструменти генеративного ШІ продовжують розвиватися, ми готові до того, що в майбутньому нас чекає ще більше трансформаційних "моментів iPhone". Незважаючи на початковий скептицизм щодо інтеграції ШІ з Web3, я впевнений, що поточні траєкторії загалом на правильному шляху, хоча є три основні больові точки, які потребують уваги: необхідність, ефективність і сумісність. Хоча конвергенція цих сфер залишається дослідницькою, це не повинно заважати нам передбачити її широке впровадження на майбутньому бичачому ринку.
Підтримувати допитливість і сприйнятливість до нових ідей є надзвичайно важливим. Історичні прецеденти, такі як швидкий перехід від кінних екіпажів до автомобілів та еволюція написів у минулих НФТ, підкреслюють важливість уникнення надмірної упередженості, яка часто призводить до втрачених можливостей.
16 лютого OpenAI анонсувала свою останню модель генерації дифузійного перетворення тексту у відео під назвою "Sora", яка стала ще однією віхою в розвитку генеративного ШІ завдяки своїй здатності створювати високоякісні відео з широким спектром візуальних типів даних. На відміну від інструментів ШІ-генерації відео, таких як Pika, які генерують кілька секунд відео з декількох зображень, Sora тренується в стислому латентному просторі відео та зображень, розбиваючи їх на просторово-часові фрагменти для масштабованої генерації відео. Більше того, модель демонструє можливості симуляції як фізичного, так і цифрового світів, а її 60-секундна демонстрація описується як "універсальний симулятор фізичного світу".
Sora продовжує технічний шлях "вихідні дані - трансформатор - дифузія - поява", який спостерігався в попередніх моделях GPT, що свідчить про те, що зрілість її розвитку також залежить від обчислювальних потужностей. Враховуючи більший обсяг даних, необхідний для відеотренінгу порівняно з текстовим, очікується подальше зростання попиту на обчислювальні потужності. Однак, як обговорювалося в нашій попередній статті "Огляд перспективного сектору: Ринок децентралізованих обчислювальних потужностей", було досліджено важливість обчислювальних потужностей в епоху ШІ, і зі зростанням популярності ШІ з'явилися численні проекти обчислювальних потужностей, які сприяли зростанню вартості інших проектів Depin (сховища, обчислювальні потужності тощо). Окрім Депіна, ця стаття має на меті оновити та завершити попередні дискусії, розмірковуючи про іскри, які можуть виникнути від переплетення Web3 та ШІ, а також про можливості, які відкриває ця траєкторія в епоху штучного інтелекту.
Штучний інтелект (ШІ) - це галузь, що стрімко розвивається і спрямована на імітацію, розширення та збагачення людського інтелекту. З моменту свого зародження в 1950-х і 1960-х роках ШІ пройшов більш ніж півстолітню еволюцію, перетворившись на ключову технологію, що сприяє трансформації суспільства і різних галузей промисловості. Протягом цього шляху переплетений прогрес трьох основних дослідницьких напрямків - символізму, коннекціонізму та біхевіоризму - заклав підґрунтя для швидкого розвитку ШІ сьогодні.
Символізм, який також називають логіцизмом або міркуванням на основі правил, стверджує, що відтворення людського інтелекту через обробку символів є можливим. Цей підхід використовує символи для представлення та маніпулювання об'єктами, концепціями та їхніми взаємозв'язками в межах певної проблемної області, застосовуючи логічне міркування для вирішення проблем. Символізм досяг значних успіхів, особливо в експертних системах та представленні знань. Її основний принцип полягає в тому, що розумна поведінка може бути реалізована через маніпуляції з символами та логічне виведення, причому символи слугують високорівневими абстракціями реального світу.
Коннекціонізм, також відомий як нейромережевий підхід, прагне досягти інтелекту, віддзеркалюючи структуру та функціональність людського мозку. Ця методологія будує мережі, що складаються з численних простих процесорних одиниць, подібних до нейронів, і регулює міцність зв'язків між цими одиницями, подібно до синапсів, щоб полегшити навчання. Наголошуючи на навчанні та узагальненні на основі даних, коннекціонізм добре підходить для таких завдань, як розпізнавання образів, класифікація та безперервне відображення вводу-виводу. Глибоке навчання, еволюція коннекціонізму, досягло прориву в таких сферах, як розпізнавання зображень і мови, а також обробка природної мови.
Біхевіоризм, тісно пов'язаний з біміметичною робототехнікою та дослідженнями автономних інтелектуальних систем, підкреслює, що інтелектуальні агенти можуть навчатися через взаємодію з навколишнім середовищем. На відміну від попередніх підходів, біхевіоризм не зосереджується на моделюванні внутрішніх репрезентацій чи когнітивних процесів, а радше досягає адаптивної поведінки через цикл сприйняття-дія. Вона стверджує, що інтелект проявляється через динамічну взаємодію з навколишнім середовищем і навчання, що робить її особливо ефективною для мобільних роботів і адаптивних систем управління, які працюють у складних і непередбачуваних умовах.
Незважаючи на фундаментальні розбіжності, ці три напрямки досліджень можуть синергувати і доповнювати один одного в практичних дослідженнях і застосуваннях ШІ, спільно стимулюючи розвиток галузі.
Сфера контенту, створеного штучним інтелектом (AIGC), що стрімко розвивається, являє собою еволюцію і застосування коннекціонізму, полегшуючи створення нового контенту, імітуючи людську творчість. Ці моделі навчаються за допомогою великих наборів даних і алгоритмів глибокого навчання, щоб розпізнавати основні структури, взаємозв'язки і закономірності в даних. На основі даних, отриманих від користувача, вони створюють різноманітні результати, включаючи зображення, відео, код, музику, проекти, переклади, відповіді на запитання та текст. Сьогодні AIGC складається з трьох основних елементів: Глибоке навчання (DL), великі дані та масивні обчислювальні потужності.
Глибоке навчання, підгрупа машинного навчання (ML), використовує алгоритми, змодельовані на основі нейронних мереж людського мозку. Подібно до того, як людський мозок складається з взаємопов'язаних нейронів, що обробляють інформацію, нейронні мережі глибокого навчання складаються з декількох шарів штучних нейронів, що виконують обчислення в комп'ютері. Ці штучні нейрони, або ноди, використовують математичні операції для обробки даних і вирішення складних завдань за допомогою алгоритмів глибокого навчання.
Нейронні мережі складаються з шарів: вхідного, прихованого та вихідного, з параметрами, що пов'язують ці шари.
- Вхідний шар: Перший шар нейронної мережі, який отримує зовнішні вхідні дані. Кожен нейрон у цьому шарі відповідає характеристиці вхідних даних. Наприклад, при обробці даних зображень окремі нейрони можуть представляти значення пікселів.
- Приховані шари: Слідом за вхідним шаром, приховані шари обробляють і передають дані через мережу. Ці шари аналізують інформацію на різних рівнях, адаптуючи свою поведінку до нових вхідних даних. Мережі глибокого навчання можуть мати сотні прихованих шарів, що дозволяє проводити багатосторонній аналіз проблем. Наприклад, класифікуючи незнайому тварину на зображенні, мережа може порівняти її з відомими тваринами, оцінюючи такі характеристики, як форма вух, кількість ніг і розмір зіниць. Приховані шари функціонують аналогічно, кожен з них обробляє різні ознаки тварин, щоб допомогти в точній класифікації.
- Вихідний шар: Останній шар нейронної мережі, що виробляє вихідні дані мережі. Нейрони в цьому шарі представляють потенційні вихідні категорії або значення. У задачах класифікації кожен нейрон може відповідати певній категорії, тоді як у задачах регресії вихідний шар може містити один нейрон, значення якого прогнозує результат.
- Параметри: У нейронних мережах зв'язки між різними шарами представлені вагами і зміщеннями, які оптимізуються в процесі навчання, щоб мережа могла точно розпізнавати закономірності в даних і робити прогнози. Збільшення параметрів може підвищити модельну здатність нейронної мережі, тобто здатність навчатися і представляти складні закономірності в даних. Однак це також збільшує попит на обчислювальні потужності.
Ефективне навчання нейронних мереж, як правило, потребує великих, різноманітних, якісних та багатоджерельних даних. Такі дані є наріжним каменем для навчання та перевірки моделей машинного навчання. Завдяки аналізу великих даних моделі машинного навчання можуть виявляти закономірності та взаємозв'язки в даних, полегшуючи прогнозування або класифікацію.
Складна багатошарова структура нейронних мереж, численні параметри, вимоги до обробки великих даних, ітеративні методи навчання (що включають повторювані обчислення прямого і зворотного поширення, в тому числі обчислення функцій активації і втрат, обчислення градієнтів і оновлення ваг), потреби в високоточних обчисленнях, можливості паралельних обчислень, методи оптимізації і регуляризації, а також процеси оцінки і валідації моделей в сукупності сприяють значним обчислювальним навантаженням.
Sora, остання модель ШІ відеопокоління OpenAI, знаменує собою значний прогрес у здатності штучного інтелекту обробляти та розуміти різноманітні візуальні дані. Використовуючи мережі стиснення відео та методи просторово-часових виправлень, Sora може перетворювати величезні обсяги візуальних даних, знятих по всьому світу та з різних пристроїв, в уніфіковане представлення. Ця можливість дозволяє ефективно обробляти та розуміти складний візуальний контент. Sora використовує текстові моделі дифузії для створення відео або зображень, які тісно пов'язані з текстовими підказками, демонструючи неабияку креативність та адаптивність.
Незважаючи на прориви Sora у створенні відео та імітації реальних взаємодій, вона стикається з певними обмеженнями. Серед них - точність моделювання фізичного світу, послідовність у створенні довгих відео, розуміння складних текстових інструкцій та ефективність у навчанні та створенні. По суті, Sora слідує технічній траєкторії "великі дані - трансформатор - дифузія - поява", чому сприяє монопольна обчислювальна потужність OpenAI та перевага першопрохідця, що призводить до своєрідної естетики грубої сили. Однак інші ШІ-компанії все ще мають потенціал, щоб перевершити Sora завдяки технологічним інноваціям.
Хоча зв'язок Sora з блокчейном залишається скромним, очікується, що в найближчі один-два роки вплив Sora призведе до появи і швидкого розвитку інших високоякісних інструментів генерації ШІ. Очікується, що ці зміни вплинуть на різні сектори Web3, такі як GameFi, соціальні платформи, творчі платформи, Depin тощо. Отже, набуття загального розуміння Sora має важливе значення, а роздуми про те, як ШІ буде ефективно інтегруватися з Web3 в майбутньому, стають вирішальним фактором.
Як ми вже обговорювали раніше, фундаментальні компоненти, необхідні для генеративного ШІ, можна звести до трьох основних елементів: алгоритми, дані та обчислювальна потужність. І навпаки, ШІ, будучи універсальним інструментом з далекосяжним впливом на методи виробництва, революціонізує роботу галузей. Тим часом, значний вплив технології блокчейн є двояким: вона реструктуризує виробничі відносини та уможливлює децентралізацію. Таким чином, конвергенція цих двох технологій може призвести до появи чотирьох потенційних шляхів:
Цей розділ має на меті дати уявлення про сучасний ландшафт обчислювальних потужностей. У сфері ШІ обчислювальна потужність має величезне значення. Попит на обчислювальні потужності в ШІ, особливо після появи Sora, досяг безпрецедентного рівня. Під час Всесвітнього економічного форуму в Давосі, Швейцарія, у 2024 році генеральний директор OpenAI Сем Альтман підкреслив, що обчислювальна потужність та енергія наразі є головними обмеженнями, натякаючи на їх майбутній еквівалент валюті. Згодом, 10 лютого, Сем Альтман оголосив у Твіттері про революційний план залучення 7 трильйонів доларів США (що еквівалентно 40% ВВП Китаю у 2023 році) для революції у світовій напівпровідниковій індустрії, спрямований на створення напівпровідникової імперії. Раніше мої міркування щодо обчислювальних потужностей обмежувалися національними обмеженнями та корпоративними монополіями; однак уявлення про те, що один суб'єкт прагне домінувати у світовому напівпровідниковому секторі, є справді дивовижним.
Важливість децентралізованих обчислювальних потужностей очевидна. Функції блокчейну пропонують рішення для поширених проблем монополізації обчислювальних потужностей і непомірних витрат, пов'язаних з придбанням спеціалізованих графічних процесорів. З точки зору вимог ШІ, використання обчислювальних потужностей можна розділити на два аспекти: висновок і навчання. Проектів, спрямованих на навчання, небагато через складну інтеграцію, необхідну для децентралізованих мереж, і значні вимоги до апаратного забезпечення, що створює значні перешкоди для їх реалізації. І навпаки, завдання виведення є відносно простішими, з менш складним дизайном децентралізованої мережі та меншими вимогами до апаратного забезпечення і пропускної здатності, що робить їх більш доступними.
Ландшафт централізованих обчислювальних потужностей має величезний потенціал, який часто асоціюється з дескриптором "трильйонний рівень", і залишається дуже сенсаційною темою в епоху ШІ. Однак, спостерігаючи за безліччю нещодавніх проектів, багато з них видаються поспішно задуманими, спрямованими на те, щоб скористатися трендами. Хоча ці проекти часто виступають за децентралізацію, вони, як правило, обходять стороною дискусії про неефективність децентралізованих мереж. Більше того, існує помітний ступінь одноманітності в дизайні, оскільки численні проекти використовують схожі підходи (наприклад, L2 в один клік плюс дизайн для видобутку корисних копалин), що потенційно може призвести до невдач і ускладнити зусилля, спрямовані на те, щоб відрізнитися від традиційної гонки штучного інтелекту.
Алгоритми машинного навчання призначені для вивчення закономірностей і правил на основі даних, що дозволяє їм робити прогнози або приймати рішення на основі цих вивчених закономірностей. Через складність, пов'язану з їх розробкою та оптимізацією, алгоритми за своєю суттю є технологічно складними, вимагаючи глибокого досвіду та технологічних інновацій. Вони слугують основою для навчання моделей штучного інтелекту, визначаючи, як обробляти дані для отримання корисної інформації або прийняття рішень. Відомі алгоритми генеративного ШІ, такі як генеративні змагальні мережі (GAN), варіаційні автокодери (VAE) і трансформатори, розроблені для конкретних областей, таких як малювання, розпізнавання мови, переклад або створення відео, і є важливими для навчання спеціалізованих моделей ШІ.
Велика кількість алгоритмів і моделей з різними сильними сторонами викликає питання: чи можуть вони бути інтегровані в універсальну модель? Bittensor, нещодавно відомий проект, очолює зусилля в цьому напрямку, стимулюючи співпрацю між різними моделями та алгоритмами штучного інтелекту, тим самим сприяючи розробці більш ефективних і здібних моделей ШІ. Інші ініціативи, такі як Commune AI, зосереджені на сприянні співпраці у розробці коду, хоча обмін алгоритмами та моделями залишається проблемою через їхню пропрієтарну природу всередині АІ-компаній.
Концепція спільної екосистеми штучного інтелекту інтригує, оскільки вона використовує технологію блокчейн для зменшення недоліків, пов'язаних з ізольованими алгоритмами штучного інтелекту. Однак його здатність генерувати відповідну вартість ще не визначена. Існуючі AI-компанії, оснащені власними алгоритмами та моделями, мають потужні можливості для оновлення, ітерації та інтеграції своїх технологій. Наприклад, OpenAI швидко перейшов від ранніх моделей генерації тексту до багатодоменних генеративних моделей протягом двох років. Такі проекти, як Bittensor, можуть потребувати вивчення інноваційних шляхів у своїх цільових галузях, щоб ефективно конкурувати.
З спрощеної точки зору, інтеграція приватних даних для підживлення ШІ та анотування даних - це шляхи, які добре узгоджуються з технологією блокчейн. Основне занепокоєння викликає те, як запобігти небажаним даним і зловмисним діям. Крім того, зберігання даних може бути корисним для таких проектів Depin, як FIL та AR.
Якщо поглянути на це під більш складним кутом, то використання даних блокчейну для машинного навчання (ML) для вирішення проблеми доступності даних блокчейну представляє ще один привабливий напрямок, який досліджувала Giza.
Теоретично, дані блокчейну доступні в будь-який момент часу і відображають стан всього блокчейну. Однак для тих, хто не є частиною екосистеми блокчейну, доступ до цих великих наборів даних не є простим. Зберігання цілого блокчейну вимагає значного досвіду та спеціалізованих апаратних ресурсів.
Для подолання проблем з доступом до блокчейн-даних в індустрії з'явилося кілька рішень. Наприклад, провайдери RPC пропонують доступ до вузлів через API, а сервіси індексування полегшують пошук даних через SQL і GraphQL, відіграючи ключову роль у вирішенні цієї проблеми. Тим не менш, ці методи мають свої обмеження. Сервіси RPC не підходять для випадків використання з високою щільністю, що вимагають великих запитів до даних, і часто не задовольняють попит. Тим часом, хоча сервіси індексування пропонують більш структурований підхід до пошуку даних, складність протоколів Web3 робить побудову ефективних запитів надзвичайно складним завданням, іноді вимагаючи сотні або навіть тисячі рядків складного коду. Ця складність є значним бар'єром для фахівців, що займаються загальними даними, і тих, хто має обмежене розуміння тонкощів Web3. Сукупний вплив цих обмежень підкреслює необхідність більш доступного і зручного методу отримання і використання даних блокчейну, який міг би стимулювати більш широке застосування та інновації в цій галузі.
Таким чином, злиття ZKML (Zero-Knowledge Proof Machine Learning, яке полегшує навантаження машинного навчання на ланцюжок) з високоякісними даними блокчейну може потенційно створити набори даних, які вирішують проблеми доступності даних блокчейну. Штучний інтелект може значно знизити бар'єри для доступу до даних блокчейну. З часом розробники, дослідники та ентузіасти ML зможуть отримати доступ до більш якісних та релевантних наборів даних для створення ефективних та інноваційних рішень.
Після вибуху ChatGPT3 у 2023 році розширення можливостей ШІ для Dapps стало дуже поширеним напрямком. Широко застосовний генеративний ШІ можна інтегрувати за допомогою API, спрощуючи та покращуючи роботу платформ даних, торгових ботів, блокчейн-енциклопедій та інших додатків. Він також може функціонувати як чат-бот (наприклад, Myshell) або ШІ-компаньйон (наприклад, Sleepless AI), і навіть створювати NPC в блокчейн-іграх за допомогою генеративного ШІ. Однак, через низькі технічні бар'єри, більшість реалізацій є простими налаштуваннями після інтеграції API, а інтеграція з самими проектами часто недосконала, тому про неї рідко згадують.
З появою Sora я особисто вважаю, що розширення можливостей ШІ для GameFi (включно з метапростором) і творчих платформ стане основним напрямком руху вперед. Враховуючи висхідну природу поля Web3, неможливо створити продукти, які могли б безпосередньо конкурувати з традиційними іграми або креативними компаніями. Однак поява Sora має потенціал для виходу з цього глухого кута, можливо, протягом всього лише двох-трьох років. З демо-версії "Сори" здається, що вона здатна конкурувати з мікро-драматичними компаніями. Крім того, активна культура спільноти Web3 може сприяти виникненню безлічі цікавих ідей. Коли єдиною межею є уява, бар'єри між висхідною індустрією та традиційною індустрією, що розвивається зверху вниз, руйнуються.
Оскільки інструменти генеративного ШІ продовжують розвиватися, ми готові до того, що в майбутньому нас чекає ще більше трансформаційних "моментів iPhone". Незважаючи на початковий скептицизм щодо інтеграції ШІ з Web3, я впевнений, що поточні траєкторії загалом на правильному шляху, хоча є три основні больові точки, які потребують уваги: необхідність, ефективність і сумісність. Хоча конвергенція цих сфер залишається дослідницькою, це не повинно заважати нам передбачити її широке впровадження на майбутньому бичачому ринку.
Підтримувати допитливість і сприйнятливість до нових ідей є надзвичайно важливим. Історичні прецеденти, такі як швидкий перехід від кінних екіпажів до автомобілів та еволюція написів у минулих НФТ, підкреслюють важливість уникнення надмірної упередженості, яка часто призводить до втрачених можливостей.