Розбиття бар'єрів даних AI: Чому дані DAO є важливими зараз

СереднійJul 14, 2024
Ця стаття розглядає поточні обмеження джерел даних штучного інтелекту та вказує, що Data DAOs можуть забезпечити нові, високоякісні набори даних для розвитку моделей штучного інтелекту. Data DAOs можуть покращити навчання штучного інтелекту з реальними даними, даними про особисте здоров'я та людськими відгуками, але вони також стикаються з викликами, такими як спотворення стимулів, верифікація даних і оцінка користі.
Розбиття бар'єрів даних AI: Чому дані DAO є важливими зараз

Останні значущі угоди щодо авторизації даних, такі як ті між OpenAI та News Corp та Reddit, підкреслюють потребу у високоякісних даних для штучного інтелекту. Ведучі моделі штучного інтелекту вже були навчені на значній частині Інтернету. Наприклад, Common Crawl проіндексував близько 10% веб-сторінок для тренування великої мовної моделі, яка включає понад 100 трильйонів токенів.

для подальшого вдосконалення моделей штучного інтелекту важливо розширити та покращити наявні дані для навчання. Ми обговорювали способи агрегування даних, особливо за допомогою децентралізованих методів. Ми особливо зацікавлені у тому, як децентралізовані підходи можуть допомогти створити нові набори даних та надати економічні стимули учасникам та творцям.

в останні роки однією з гарячих тем у світі криптовалют є концепція датадао, які представляють собою групи людей, що створюють, організовують та управляють даними. Хоча ця тема обговорювалась компанією Multicoin та іншими, стрімкий розвиток штучного інтелекту ставить нове питання: «чому саме зараз настав час для датадао?»

У цій статті ми поділимося нашими інсайтами щодо даних DAO, щоб відповісти на питання: як даними DAO можна прискорити розвиток штучного інтелекту?

1. поточний стан даних у штучному інтелекті

сьогодні моделі штучного інтелекту переважно навчаються на публічних даних, або через партнерства з компаніями, такими як News Corp і Reddit, або шляхом збору даних з відкритого інтернету. Наприклад, Llama 3 від Meta навчався за допомогою 15 трільйонів токенів з публічних джерел. В той час як ці методи ефективні для швидкого збору великих обсягів даних, у них є обмеження стосовно того, які типи даних збираються та як ці дані отримуються.

спочатку щодо того, які дані слід збирати: розвиток штучного інтелекту гальмується через проблеми якості та кількості даних. Леопольд Ашенбреннер обговорив «стіну даних», яка обмежує подальше вдосконалення алгоритмів: «скоро простий підхід попереднього навчання більших мовних моделей на більшому обсязі зібраних даних може стикнутися зі значними буттями».

один з способів подолати стіну даних - це зробити нові набори даних доступними. наприклад, компанії-моделі не можуть скрапити захищені паролем дані без порушення умов обслуговування більшості веб-сайтів, і вони не можуть отримати доступ до даних, які не були зібрані. на сьогоднішній день існує велика кількість приватних даних, до яких неможливо отримати доступ для навчання штучного інтелекту, таких як дані з Google Диску, Slack, медичні записи про особисте здоров'я та інша приватна інформація.

По-друге, щодо того, як збираються дані: у поточній моделі компанії, що займаються збором даних, отримують більшу частину вартості. У заявці Reddit S-1 ліцензування даних підкреслюється як основне очікуване джерело доходу: «Ми очікуємо, що наша зростаюча перевага даних та інтелектуальна власність залишаться ключовими елементами в майбутньому навчанні LLM». Однак кінцеві користувачі, які генерують фактичний контент, не отримують жодних економічних вигод від цих ліцензійних угод або самих моделей штучного інтелекту. Ця невідповідність може перешкодити участі — вже існують рухи за те, щоб подати до суду на компанії, що займаються генеративним штучним інтелектом, або відмовитися від навчальних наборів даних. Крім того, концентрація доходів у руках модельних компаній або платформ без розподілу їх з кінцевими користувачами має значні соціально-економічні наслідки.

2. вплив даних daos

Проблеми з даними, згадані раніше, мають спільну тему: вони виграють від значного внеску від різноманітних і репрезентативних вибірок користувачів. Хоча будь-яка окрема точка даних може мати незначний вплив на продуктивність моделі, у сукупності велика група користувачів може генерувати нові набори даних, які є дуже цінними для навчання ШІ. Саме тут у гру вступають Data DAO (децентралізовані автономні організації). За допомогою Data DAO автори даних можуть отримувати економічну винагороду за надання даних і контролювати, як їхні дані використовуються та монетизуються.

в яких галузях можуть суттєво впливати Data DAO на поточну датову ландшафту? Ось кілька ідей — цей список не є вичерпним, і Data DAO безперечно мають інші можливості:

(1) дані реального світу
У галузі децентралізованої фізичної інфраструктури (depin) мережі, такі як hivemapper, спрямовані на збір останніх глобальних картографічних даних заохочуючи власників відеореєстраторів ділитися своїми даними та заохочуючи користувачів надавати дані через їх додатки (наприклад, інформація про дорожні перекриття або ремонт). depin можна розглядати як децентралізовану організацію реальних даних, де набори даних генеруються з апаратних пристроїв та/або користувацьких мереж. Ці дані мають комерційну цінність для багатьох компаній, а учасники отримують винагороду токенами.

(2) персональні медичні дані
Біохакінг - це соціальний рух, в якому індивіди та спільноти вживають самодіяльних заходів для вивчення біології, часто експериментуючи на собі. Наприклад, хтось може використовувати різні ноотропні препарати для покращення роботи мозку, спробувати різні методи лікування або зміни навколишнього середовища для покращення сну, або навіть впритул вводити собі експериментальні речовини.

DAO-організації можуть підтримувати ці спроби біохакінгу, організовуючи учасників навколо спільних експериментів та систематично збираючи результати. Дохід, отриманий з особистих DAO щодо здоров'я, таких як з лабораторій досліджень або фармацевтичних компаній, може бути повернутий учасникам, які надали свої особисті дані здоров'я.

(3) навчання з посиленням за допомогою людського зворотнього зв'язку
Навчання з посиленням з відгуком людини (RLHF) передбачає використання відгуку людини для налаштування моделей штучного інтелекту та покращення їх продуктивності. Зазвичай відгук надходить від експертів у конкретних галузях, які можуть ефективно оцінити вихід моделі. Наприклад, дослідницька лабораторія може звернутися за допомогою до доктора математики, щоб покращити математичні можливості свого штучного інтелекту. Токенові винагороди можуть привертати та стимулювати експертів до участі, пропонуючи спекулятивну вартість та глобальний доступ через криптовалютні платіжні системи. Компанії, такі як Sapien, Fraction та Sahara, активно працюють в цій галузі.

(4) приватні дані
Якщо дані загального доступу для навчання ШІ стають рідкісними, то фокус може перенестися на пропрієтарні набори даних, включаючи приватні дані користувачів. За логін-стінами знаходиться велика кількість високоякісних даних, які залишаються недоступними, такі як приватні повідомлення та документи. Ці дані можуть бути дуже ефективними для навчання персоналізованих ШІ та містять цінну інформацію, якої немає в загальному Інтернеті.

Отримання та використання цих даних становлять значні юридичні та етичні виклики. Дані daos можуть запропонувати рішення, дозволяючи бажаючим учасникам завантажувати та монетизувати свої дані, керуючи їх використанням. Наприклад, reddit data dao може дозволити користувачам завантажувати їх експортовані дані reddit, включаючи коментарі, повідомлення та історію голосування, які можуть бути продані або здані в оренду компаніям штучного інтелекту в спосіб, що захищає конфіденційність. Токен-інцентиви дозволяють користувачам отримувати прибуток не тільки від одноразової транзакції, але й від постійної вартості, що генерується моделями штучного інтелекту, навчені їх даними.

3. відкриті питання та виклики

під час того, як дані ДАО надають значні потенційні переваги, існує кілька важливих аспектів та викликів, які потрібно врахувати.

(1) спотворення інцентивів
важливий урок з історії використання токенів у криптовалюті полягає в тому, що зовнішні винагороди можуть змінити поведінку користувачів. Це безпосередньо впливає на використання токенів для збору даних: стимули можуть спотворювати учасників та типи даних, які вони надають.

Введення стимулів у токени також відкриває можливість учасникам зловживати системою, наприклад, надсилаючи низькоякісні або вигадані дані для максимізації свого доходу. Це критично, оскільки успіх дата-дао залежить від якості даних. Якщо внески відхиляються від бажаної мети, цінність набору даних може бути скомпрометована.

(2) вимірювання та винагорода даних

центральна ідея дата-дав - винагорода для учасників за їхні внески у дані жетонами, що забезпечить прибуток для дав у майбутньому. однак через суб'єктивний характер цінності даних визначення відповідної винагороди за різні внески у дані є вельми складним. наприклад, у сценарії біоракінгу: чи деякі дані користувачів цінніші за інші? які фактори це визначають? для картографічних даних: чи інформація з певних областей цінніша, ніж з інших? як ці відмінності мають бути кількісно визначені? (дослідження з вимірювання цінності даних в штучному інтелекті шляхом оцінки приросту внеску даних у продуктивність моделі триває, але може бути обчислювально інтенсивним.)

Крім того, важливо створити надійні механізми перевірки достовірності та точності даних. Без таких заходів система може бути вразливою до шахрайських надходжень даних (наприклад, створення фальшивих облікових записів) або сібіл-атак. Мережі Депін вирішують це питання, інтегруючи перевірку на рівні пристроїв з апаратним забезпеченням, але інші типи DAO, що ґрунтуються на внесках користувачів, можуть бути більш схильними до маніпулювання.

(3) прирост вартості нових даних
Більшість відкритих мереж вже були використані для навчальних цілей, тому операторам даних DAO потрібно розглянути, чи набуті в децентралізований спосіб набори даних дійсно додають інкрементальну вартість існуючим даним на відкритих мережах, і чи дослідники можуть отримати доступ до цих даних з платформи або через інші засоби. Ця ідея підкреслює важливість збору зовсім нових даних, які перевершують те, що наразі доступно, що призводить до наступного врахування: масштабу впливу та можливостей доходу.

(4) оцінка можливостей заробітку
Фундаментально, данні DAO будують двосторонню торговельну платформу, яка з'єднує покупців даних з постачальниками даних. Тому успіх данні DAO залежить від його здатності привернути стабільну та різноманітну клієнтську базу, готову платити за дані.

Дані Daos повинні ідентифікувати та підтверджувати попит на свої дані та забезпечувати достатньо значні можливості отримання доходів (чи в цілому, чи на кожного учасника), щоб стимулювати достатню кількість та якість даних. Наприклад, концепція створення користувацького dao даних для агрегування особистих уподобань та даних перегляду для рекламних цілей обговорюється вже кілька років, але потенційні доходи для користувачів можуть бути мінімальними. (Для контексту глобальний arpu Meta був $13,12 в кінці 2023 року.) З планами Ai компаній інвестувати трільйони доларів у тренування, потенційні доходи від даних можуть бути достатньою мотивацією для великомасштабних внесків, ставлячи цікаве питання для дані Daos: «чому зараз?»

4. прориваючись через стіну даних

Дао-дані пропонують міцне рішення для створення нових високоякісних наборів даних та подолання стіни даних, яка становить виклик для штучного інтелекту. Хоча точні методи досягнення цього ще належить визначити, ми з нетерпінням чекаємо, як розвиватиметься ця галузь.

відмова від відповідальності:

  1. ця стаття перепечатана з [Jinse finance], авторське право належить оригінальному автору [li jin]. Якщо у вас є будь-які заперечення до цього повторного друку, будь ласка, зв'яжіться з командою Gate Learn за адресою [email protected].Команда негайно вирішить будь-які питання згідно з відповідними процедурами.
  2. відмова від відповідальності: погляди та думки, висловлені в цій статті, належать лише автору і не становлять жодних інвестиційних порад.
  3. інші мовні версії цієї статті були перекладені командою Gate Learn, без згадуванняGate.io, перекладені статті не можуть бути скопійовані, розповсюджені або узяті за основу.

Розбиття бар'єрів даних AI: Чому дані DAO є важливими зараз

СереднійJul 14, 2024
Ця стаття розглядає поточні обмеження джерел даних штучного інтелекту та вказує, що Data DAOs можуть забезпечити нові, високоякісні набори даних для розвитку моделей штучного інтелекту. Data DAOs можуть покращити навчання штучного інтелекту з реальними даними, даними про особисте здоров'я та людськими відгуками, але вони також стикаються з викликами, такими як спотворення стимулів, верифікація даних і оцінка користі.
Розбиття бар'єрів даних AI: Чому дані DAO є важливими зараз

Останні значущі угоди щодо авторизації даних, такі як ті між OpenAI та News Corp та Reddit, підкреслюють потребу у високоякісних даних для штучного інтелекту. Ведучі моделі штучного інтелекту вже були навчені на значній частині Інтернету. Наприклад, Common Crawl проіндексував близько 10% веб-сторінок для тренування великої мовної моделі, яка включає понад 100 трильйонів токенів.

для подальшого вдосконалення моделей штучного інтелекту важливо розширити та покращити наявні дані для навчання. Ми обговорювали способи агрегування даних, особливо за допомогою децентралізованих методів. Ми особливо зацікавлені у тому, як децентралізовані підходи можуть допомогти створити нові набори даних та надати економічні стимули учасникам та творцям.

в останні роки однією з гарячих тем у світі криптовалют є концепція датадао, які представляють собою групи людей, що створюють, організовують та управляють даними. Хоча ця тема обговорювалась компанією Multicoin та іншими, стрімкий розвиток штучного інтелекту ставить нове питання: «чому саме зараз настав час для датадао?»

У цій статті ми поділимося нашими інсайтами щодо даних DAO, щоб відповісти на питання: як даними DAO можна прискорити розвиток штучного інтелекту?

1. поточний стан даних у штучному інтелекті

сьогодні моделі штучного інтелекту переважно навчаються на публічних даних, або через партнерства з компаніями, такими як News Corp і Reddit, або шляхом збору даних з відкритого інтернету. Наприклад, Llama 3 від Meta навчався за допомогою 15 трільйонів токенів з публічних джерел. В той час як ці методи ефективні для швидкого збору великих обсягів даних, у них є обмеження стосовно того, які типи даних збираються та як ці дані отримуються.

спочатку щодо того, які дані слід збирати: розвиток штучного інтелекту гальмується через проблеми якості та кількості даних. Леопольд Ашенбреннер обговорив «стіну даних», яка обмежує подальше вдосконалення алгоритмів: «скоро простий підхід попереднього навчання більших мовних моделей на більшому обсязі зібраних даних може стикнутися зі значними буттями».

один з способів подолати стіну даних - це зробити нові набори даних доступними. наприклад, компанії-моделі не можуть скрапити захищені паролем дані без порушення умов обслуговування більшості веб-сайтів, і вони не можуть отримати доступ до даних, які не були зібрані. на сьогоднішній день існує велика кількість приватних даних, до яких неможливо отримати доступ для навчання штучного інтелекту, таких як дані з Google Диску, Slack, медичні записи про особисте здоров'я та інша приватна інформація.

По-друге, щодо того, як збираються дані: у поточній моделі компанії, що займаються збором даних, отримують більшу частину вартості. У заявці Reddit S-1 ліцензування даних підкреслюється як основне очікуване джерело доходу: «Ми очікуємо, що наша зростаюча перевага даних та інтелектуальна власність залишаться ключовими елементами в майбутньому навчанні LLM». Однак кінцеві користувачі, які генерують фактичний контент, не отримують жодних економічних вигод від цих ліцензійних угод або самих моделей штучного інтелекту. Ця невідповідність може перешкодити участі — вже існують рухи за те, щоб подати до суду на компанії, що займаються генеративним штучним інтелектом, або відмовитися від навчальних наборів даних. Крім того, концентрація доходів у руках модельних компаній або платформ без розподілу їх з кінцевими користувачами має значні соціально-економічні наслідки.

2. вплив даних daos

Проблеми з даними, згадані раніше, мають спільну тему: вони виграють від значного внеску від різноманітних і репрезентативних вибірок користувачів. Хоча будь-яка окрема точка даних може мати незначний вплив на продуктивність моделі, у сукупності велика група користувачів може генерувати нові набори даних, які є дуже цінними для навчання ШІ. Саме тут у гру вступають Data DAO (децентралізовані автономні організації). За допомогою Data DAO автори даних можуть отримувати економічну винагороду за надання даних і контролювати, як їхні дані використовуються та монетизуються.

в яких галузях можуть суттєво впливати Data DAO на поточну датову ландшафту? Ось кілька ідей — цей список не є вичерпним, і Data DAO безперечно мають інші можливості:

(1) дані реального світу
У галузі децентралізованої фізичної інфраструктури (depin) мережі, такі як hivemapper, спрямовані на збір останніх глобальних картографічних даних заохочуючи власників відеореєстраторів ділитися своїми даними та заохочуючи користувачів надавати дані через їх додатки (наприклад, інформація про дорожні перекриття або ремонт). depin можна розглядати як децентралізовану організацію реальних даних, де набори даних генеруються з апаратних пристроїв та/або користувацьких мереж. Ці дані мають комерційну цінність для багатьох компаній, а учасники отримують винагороду токенами.

(2) персональні медичні дані
Біохакінг - це соціальний рух, в якому індивіди та спільноти вживають самодіяльних заходів для вивчення біології, часто експериментуючи на собі. Наприклад, хтось може використовувати різні ноотропні препарати для покращення роботи мозку, спробувати різні методи лікування або зміни навколишнього середовища для покращення сну, або навіть впритул вводити собі експериментальні речовини.

DAO-організації можуть підтримувати ці спроби біохакінгу, організовуючи учасників навколо спільних експериментів та систематично збираючи результати. Дохід, отриманий з особистих DAO щодо здоров'я, таких як з лабораторій досліджень або фармацевтичних компаній, може бути повернутий учасникам, які надали свої особисті дані здоров'я.

(3) навчання з посиленням за допомогою людського зворотнього зв'язку
Навчання з посиленням з відгуком людини (RLHF) передбачає використання відгуку людини для налаштування моделей штучного інтелекту та покращення їх продуктивності. Зазвичай відгук надходить від експертів у конкретних галузях, які можуть ефективно оцінити вихід моделі. Наприклад, дослідницька лабораторія може звернутися за допомогою до доктора математики, щоб покращити математичні можливості свого штучного інтелекту. Токенові винагороди можуть привертати та стимулювати експертів до участі, пропонуючи спекулятивну вартість та глобальний доступ через криптовалютні платіжні системи. Компанії, такі як Sapien, Fraction та Sahara, активно працюють в цій галузі.

(4) приватні дані
Якщо дані загального доступу для навчання ШІ стають рідкісними, то фокус може перенестися на пропрієтарні набори даних, включаючи приватні дані користувачів. За логін-стінами знаходиться велика кількість високоякісних даних, які залишаються недоступними, такі як приватні повідомлення та документи. Ці дані можуть бути дуже ефективними для навчання персоналізованих ШІ та містять цінну інформацію, якої немає в загальному Інтернеті.

Отримання та використання цих даних становлять значні юридичні та етичні виклики. Дані daos можуть запропонувати рішення, дозволяючи бажаючим учасникам завантажувати та монетизувати свої дані, керуючи їх використанням. Наприклад, reddit data dao може дозволити користувачам завантажувати їх експортовані дані reddit, включаючи коментарі, повідомлення та історію голосування, які можуть бути продані або здані в оренду компаніям штучного інтелекту в спосіб, що захищає конфіденційність. Токен-інцентиви дозволяють користувачам отримувати прибуток не тільки від одноразової транзакції, але й від постійної вартості, що генерується моделями штучного інтелекту, навчені їх даними.

3. відкриті питання та виклики

під час того, як дані ДАО надають значні потенційні переваги, існує кілька важливих аспектів та викликів, які потрібно врахувати.

(1) спотворення інцентивів
важливий урок з історії використання токенів у криптовалюті полягає в тому, що зовнішні винагороди можуть змінити поведінку користувачів. Це безпосередньо впливає на використання токенів для збору даних: стимули можуть спотворювати учасників та типи даних, які вони надають.

Введення стимулів у токени також відкриває можливість учасникам зловживати системою, наприклад, надсилаючи низькоякісні або вигадані дані для максимізації свого доходу. Це критично, оскільки успіх дата-дао залежить від якості даних. Якщо внески відхиляються від бажаної мети, цінність набору даних може бути скомпрометована.

(2) вимірювання та винагорода даних

центральна ідея дата-дав - винагорода для учасників за їхні внески у дані жетонами, що забезпечить прибуток для дав у майбутньому. однак через суб'єктивний характер цінності даних визначення відповідної винагороди за різні внески у дані є вельми складним. наприклад, у сценарії біоракінгу: чи деякі дані користувачів цінніші за інші? які фактори це визначають? для картографічних даних: чи інформація з певних областей цінніша, ніж з інших? як ці відмінності мають бути кількісно визначені? (дослідження з вимірювання цінності даних в штучному інтелекті шляхом оцінки приросту внеску даних у продуктивність моделі триває, але може бути обчислювально інтенсивним.)

Крім того, важливо створити надійні механізми перевірки достовірності та точності даних. Без таких заходів система може бути вразливою до шахрайських надходжень даних (наприклад, створення фальшивих облікових записів) або сібіл-атак. Мережі Депін вирішують це питання, інтегруючи перевірку на рівні пристроїв з апаратним забезпеченням, але інші типи DAO, що ґрунтуються на внесках користувачів, можуть бути більш схильними до маніпулювання.

(3) прирост вартості нових даних
Більшість відкритих мереж вже були використані для навчальних цілей, тому операторам даних DAO потрібно розглянути, чи набуті в децентралізований спосіб набори даних дійсно додають інкрементальну вартість існуючим даним на відкритих мережах, і чи дослідники можуть отримати доступ до цих даних з платформи або через інші засоби. Ця ідея підкреслює важливість збору зовсім нових даних, які перевершують те, що наразі доступно, що призводить до наступного врахування: масштабу впливу та можливостей доходу.

(4) оцінка можливостей заробітку
Фундаментально, данні DAO будують двосторонню торговельну платформу, яка з'єднує покупців даних з постачальниками даних. Тому успіх данні DAO залежить від його здатності привернути стабільну та різноманітну клієнтську базу, готову платити за дані.

Дані Daos повинні ідентифікувати та підтверджувати попит на свої дані та забезпечувати достатньо значні можливості отримання доходів (чи в цілому, чи на кожного учасника), щоб стимулювати достатню кількість та якість даних. Наприклад, концепція створення користувацького dao даних для агрегування особистих уподобань та даних перегляду для рекламних цілей обговорюється вже кілька років, але потенційні доходи для користувачів можуть бути мінімальними. (Для контексту глобальний arpu Meta був $13,12 в кінці 2023 року.) З планами Ai компаній інвестувати трільйони доларів у тренування, потенційні доходи від даних можуть бути достатньою мотивацією для великомасштабних внесків, ставлячи цікаве питання для дані Daos: «чому зараз?»

4. прориваючись через стіну даних

Дао-дані пропонують міцне рішення для створення нових високоякісних наборів даних та подолання стіни даних, яка становить виклик для штучного інтелекту. Хоча точні методи досягнення цього ще належить визначити, ми з нетерпінням чекаємо, як розвиватиметься ця галузь.

відмова від відповідальності:

  1. ця стаття перепечатана з [Jinse finance], авторське право належить оригінальному автору [li jin]. Якщо у вас є будь-які заперечення до цього повторного друку, будь ласка, зв'яжіться з командою Gate Learn за адресою [email protected].Команда негайно вирішить будь-які питання згідно з відповідними процедурами.
  2. відмова від відповідальності: погляди та думки, висловлені в цій статті, належать лише автору і не становлять жодних інвестиційних порад.
  3. інші мовні версії цієї статті були перекладені командою Gate Learn, без згадуванняGate.io, перекладені статті не можуть бути скопійовані, розповсюджені або узяті за основу.
Розпочати зараз
Зареєструйтеся та отримайте ваучер на
$100
!