Quebrando as Barreiras de Dados de IA: Por que os Data DAOs são Cruciais Agora

IntermediárioJul 14, 2024
Este artigo examina as limitações atuais das fontes de dados de IA e sugere que os Data DAOs podem fornecer novos conjuntos de dados de alta qualidade para avançar os modelos de IA. Os Data DAOs podem aprimorar o treinamento de IA com dados do mundo real, dados de saúde pessoal e feedback humano, mas também enfrentam desafios como distorção de incentivos, verificação de dados e avaliação de benefícios.
Quebrando as Barreiras de Dados de IA: Por que os Data DAOs são Cruciais Agora

Recentes acordos de autorização de dados notáveis, como aqueles entre openai e news corp e reddit, enfatizam a necessidade de dados de alta qualidade em IA. Modelos de IA líderes já foram treinados em uma parte significativa da internet. Por exemplo, o Common Crawl indexou cerca de 10% das páginas da web para treinamento de modelos de linguagem grandes, o que inclui mais de 100 trilhões de tokens.

para melhorar ainda mais os modelos de IA, é essencial expandir e aprimorar os dados disponíveis para treinamento. Temos discutido formas de agregar dados, especialmente por meio de métodos descentralizados. Estamos particularmente interessados em como abordagens descentralizadas podem ajudar a criar novos conjuntos de dados e oferecer incentivos econômicos aos contribuidores e criadores.

Nos últimos anos, um dos tópicos quentes no mundo das criptomoedas tem sido o conceito de data daos, que são grupos de pessoas que criam, organizam e gerenciam dados. Embora este tópico tenha sido discutido pela multicoin e outros, o rápido avanço da IA levanta uma nova questão: "por que agora é o momento certo para os data daos?"

neste artigo, partilharemos as nossas perspetivas sobre os daos de dados para abordar a questão: como podem os daos de dados acelerar o desenvolvimento de ia?

1. o estado atual dos dados em IA

Hoje em dia, os modelos de AI são principalmente treinados com dados públicos, seja através de parcerias com empresas como a News Corp e o Reddit ou através da coleta de dados da Internet aberta. Por exemplo, o Llama 3 da Meta foi treinado usando 15 trilhões de tokens de fontes públicas. Embora esses métodos sejam eficazes para coletar rapidamente grandes quantidades de dados, eles têm limitações quanto aos tipos de dados coletados e como esses dados são obtidos.

em primeiro lugar, no que diz respeito aos dados que devem ser coletados: o desenvolvimento de IA é prejudicado por gargalos na qualidade e quantidade de dados. Leopold Aschenbrenner discutiu a "parede de dados" que limita melhorias adicionais nos algoritmos: "em breve, a abordagem simples de pré-treinar modelos de linguagem maiores com mais dados raspados pode enfrentar gargalos significativos."

Uma maneira de superar a barreira dos dados é disponibilizar novos conjuntos de dados. Por exemplo, as empresas-modelo não podem raspar dados protegidos por login sem violar os termos de serviço da maioria dos sites, e não podem acessar dados que não foram coletados. Atualmente, há uma vasta quantidade de dados privados que o treinamento de IA não pode acessar, como dados do Google Drive, Slack, registros de saúde pessoal e outras informações privadas.

Em segundo lugar, em relação à forma como os dados são coletados: no modelo atual, as empresas de coleta de dados capturam a maior parte do valor. O registro S-1 da Reddit destaca as licenças de dados como uma importante fonte de receita antecipada: 'esperamos que nossa crescente vantagem em dados e propriedade intelectual permaneçam elementos-chave no futuro treinamento LLM.' No entanto, os usuários finais que geram o conteúdo real não recebem nenhum benefício econômico desses acordos de licenciamento ou dos próprios modelos de AI. Essa falta de alinhamento pode desencorajar a participação - já existem movimentos para processar empresas de AI generativas ou optar por não treinar conjuntos de dados. Além disso, concentrar a receita nas mãos de empresas ou plataformas de modelo sem compartilhá-la com os usuários finais tem importantes implicações socioeconômicas.

2. o impacto dos data daos

as questões de dados mencionadas anteriormente partilham um tema comum: beneficiam de contribuições substanciais de amostras de utilizadores diversos e representativos. enquanto um único ponto de dados pode ter impacto negligenciável no desempenho do modelo, coletivamente, um grande grupo de utilizadores pode gerar novos conjuntos de dados que são altamente valiosos para o treino de ia. é aqui que entram em jogo as organizações autônomas descentralizadas de dados (daos). com os daos de dados, os contribuintes de dados podem ganhar recompensas económicas por fornecerem dados e podem controlar como os seus dados são utilizados e monetizados.

em que áreas os daos de dados podem ter um impacto significativo no atual cenário de dados? aqui estão algumas ideias - esta não é uma lista exaustiva, e os daos de dados certamente têm outras oportunidades:

(1) dados do mundo real
No campo da infraestrutura física descentralizada (depin), redes como a Hivemapper têm como objetivo coletar os dados mais recentes do mapa global, incentivando os proprietários de câmeras de painel a compartilhar seus dados e encorajando os usuários a fornecer dados por meio de seus aplicativos (por exemplo, informações sobre fechamentos ou reparos de estradas). Depin pode ser visto como um DAO de dados do mundo real, onde conjuntos de dados são gerados a partir de dispositivos de hardware e/ou redes de usuários. Esses dados têm valor comercial para muitas empresas e os contribuintes são recompensados com tokens.

(2) dados de saúde pessoal
A biohacking é um movimento social em que indivíduos e comunidades adotam uma abordagem de faça-você-mesmo para estudar biologia, muitas vezes experimentando em si mesmos. Por exemplo, alguém pode usar diferentes drogas nootrópicas para melhorar o desempenho cerebral, experimentar diversos tratamentos ou mudanças ambientais para melhorar o sono, ou até mesmo se injetar com substâncias experimentais.

As DAOs de dados podem apoiar esses esforços de biohacking ao organizar participantes em torno de experimentos compartilhados e coletar sistematicamente os resultados. A receita gerada por essas DAOs de saúde pessoal, como de laboratórios de pesquisa ou empresas farmacêuticas, pode ser devolvida aos participantes que contribuíram com seus dados de saúde pessoal.

(3) aprendizado por reforço com feedback humano
A aprendizagem por reforço com feedback humano (RLHF) envolve o uso de entradas humanas para ajustar modelos de IA e melhorar seu desempenho. Normalmente, o feedback vem de especialistas em campos específicos que podem avaliar efetivamente a saída do modelo. Por exemplo, um laboratório de pesquisa pode buscar a ajuda de um PhD em matemática para melhorar as capacidades matemáticas de sua IA. Recompensas em forma de tokens podem atrair e incentivar especialistas a participar, oferecendo valor especulativo e acesso global por meio de sistemas de pagamento cripto. Empresas como Sapien, Fraction e Sahara estão trabalhando ativamente nessa área.

(4) dados privados
À medida que os dados públicos disponíveis para o treino de IA se tornam mais escassos, o foco pode mudar para conjuntos de dados proprietários, incluindo dados de usuários privados. Por trás de paredes de login, há uma riqueza de dados de alta qualidade que permanece inacessível, como mensagens e documentos privados. Esses dados podem ser altamente eficazes para o treino de IA personalizada e contêm informações valiosas não encontradas na internet pública.

o acesso e uso desses dados apresentam desafios legais e éticos significativos. Os data daos podem oferecer uma solução, permitindo que participantes dispostos façam upload e monetizem seus dados enquanto gerenciam seu uso. Por exemplo, um data dao do Reddit poderia permitir que os usuários façam upload de seus dados exportados do Reddit, incluindo comentários, postagens e histórico de votação, que poderiam ser vendidos ou alugados para empresas de IA de forma a proteger a privacidade. Incentivos de token permitem que os usuários ganhem não apenas com uma transação única, mas também com o valor contínuo gerado por modelos de IA treinados com seus dados.

3. problemas e desafios em aberto

Embora os data daos ofereçam benefícios significativos, existem várias considerações e desafios importantes a serem abordados.

(1) distorção de incentivos
uma lição chave da história do uso de incentivos de token em criptomoedas é que recompensas externas podem alterar o comportamento do usuário. Isso tem implicações diretas para o uso de incentivos de token para coletar dados: os incentivos podem distorcer o grupo de participantes e os tipos de dados que eles contribuem.

a introdução de incentivos em token também abre a possibilidade de os participantes explorarem o sistema, como ao submeterem dados de baixa qualidade ou fabricados para maximizarem os seus rendimentos. isto é crucial porque o sucesso dos data daos depende da qualidade dos dados. se as contribuições se desviarem do objetivo desejado, o valor do conjunto de dados pode ser comprometido.

(2) medição e recompensa de dados

a ideia central dos data daos é recompensar os contribuintes pelas suas submissões de dados com tokens, que irão gerar receitas para o dao a longo prazo. no entanto, devido à natureza subjetiva do valor dos dados, determinar a recompensa apropriada para diferentes contribuições de dados é altamente desafiador. por exemplo, no cenário de biohacking: os dados de alguns utilizadores são mais valiosos do que outros? se sim, que fatores determinam isso? para dados de mapas: a informação de certas áreas é mais valiosa do que de outras? como devem estas diferenças ser quantificadas? (a pesquisa sobre a medição do valor dos dados em ai, através da avaliação da contribuição incremental dos dados para o desempenho do modelo, está em curso, mas pode ser computacionalmente intensiva.)

Além disso, é essencial estabelecer mecanismos robustos para verificar a autenticidade e precisão dos dados. Sem essas medidas, o sistema poderia estar vulnerável a envios de dados fraudulentos (por exemplo, criação de contas falsas) ou ataques de Sybil. As redes Depin abordam esse problema integrando a verificação no nível do dispositivo de hardware, mas outros tipos de DAOs de dados que dependem das contribuições do usuário podem ser mais suscetíveis à manipulação.

(3) valor incremental de novos dados
A maioria das redes abertas já foi aproveitada para fins de treinamento, portanto, os operadores do data dao devem considerar se os conjuntos de dados coletados de forma descentralizada realmente adicionam valor incremental aos dados existentes em redes abertas e se os pesquisadores podem acessar esses dados da plataforma ou por outros meios. Esta ideia destaca a importância da coleta de dados completamente novos que superem o que está atualmente disponível, levando à próxima consideração: a escala de impacto e oportunidades de receita.

(4) avaliar oportunidades de receita
Fundamentalmente, os DAOs de dados estão construindo um mercado de dois lados que conecta compradores de dados com contribuintes de dados. Portanto, o sucesso de um DAO de dados depende de sua capacidade de atrair uma base de clientes estável e diversificada disposta a pagar por dados.

Os DAOs de dados precisam identificar e confirmar a demanda por seus dados e garantir que as oportunidades de receita sejam significativas o suficiente (seja no total ou por colaborador) para motivar a quantidade e a qualidade necessárias dos dados. Por exemplo, o conceito de criar um DAO de dados do usuário para agregar preferências pessoais e dados de navegação para fins publicitários tem sido discutido há anos, mas os retornos potenciais para os usuários podem ser mínimos. (Para contextualizar, o ARPU global da Meta era de US$ 13,12 no final de 2023.) Com as empresas de IA planejando investir trilhões de dólares em treinamento, os ganhos potenciais com dados podem ser suficientes para incentivar contribuições em larga escala, levantando uma questão intrigante para o Data Dao: "Por que agora?"

4. rompendo a barreira de dados

Os data daos oferecem uma solução promissora para a criação de novos conjuntos de dados de alta qualidade e para superar a barreira de dados que desafia a inteligência artificial. Embora os métodos exatos para alcançar isso ainda estejam por determinar, estamos entusiasmados para ver como esse campo evolui.

disclaimer:

  1. este artigo é republicado de [Finanças Jinse], e os direitos autorais pertencem ao autor original [li jin]. se você tiver alguma objeção a esta reprodução, entre em contato com a equipe do gate learn em[email protected].a equipe abordará prontamente qualquer preocupação de acordo com os procedimentos relevantes.
  2. Aviso legal: as opiniões expressas neste artigo são exclusivas do autor e não constituem qualquer conselho de investimento.
  3. outras versões deste artigo foram traduzidas pela equipa Gate Learn. sem mencionarGate.ioOs artigos traduzidos podem não ser copiados, distribuídos ou plagiados.

Quebrando as Barreiras de Dados de IA: Por que os Data DAOs são Cruciais Agora

IntermediárioJul 14, 2024
Este artigo examina as limitações atuais das fontes de dados de IA e sugere que os Data DAOs podem fornecer novos conjuntos de dados de alta qualidade para avançar os modelos de IA. Os Data DAOs podem aprimorar o treinamento de IA com dados do mundo real, dados de saúde pessoal e feedback humano, mas também enfrentam desafios como distorção de incentivos, verificação de dados e avaliação de benefícios.
Quebrando as Barreiras de Dados de IA: Por que os Data DAOs são Cruciais Agora

Recentes acordos de autorização de dados notáveis, como aqueles entre openai e news corp e reddit, enfatizam a necessidade de dados de alta qualidade em IA. Modelos de IA líderes já foram treinados em uma parte significativa da internet. Por exemplo, o Common Crawl indexou cerca de 10% das páginas da web para treinamento de modelos de linguagem grandes, o que inclui mais de 100 trilhões de tokens.

para melhorar ainda mais os modelos de IA, é essencial expandir e aprimorar os dados disponíveis para treinamento. Temos discutido formas de agregar dados, especialmente por meio de métodos descentralizados. Estamos particularmente interessados em como abordagens descentralizadas podem ajudar a criar novos conjuntos de dados e oferecer incentivos econômicos aos contribuidores e criadores.

Nos últimos anos, um dos tópicos quentes no mundo das criptomoedas tem sido o conceito de data daos, que são grupos de pessoas que criam, organizam e gerenciam dados. Embora este tópico tenha sido discutido pela multicoin e outros, o rápido avanço da IA levanta uma nova questão: "por que agora é o momento certo para os data daos?"

neste artigo, partilharemos as nossas perspetivas sobre os daos de dados para abordar a questão: como podem os daos de dados acelerar o desenvolvimento de ia?

1. o estado atual dos dados em IA

Hoje em dia, os modelos de AI são principalmente treinados com dados públicos, seja através de parcerias com empresas como a News Corp e o Reddit ou através da coleta de dados da Internet aberta. Por exemplo, o Llama 3 da Meta foi treinado usando 15 trilhões de tokens de fontes públicas. Embora esses métodos sejam eficazes para coletar rapidamente grandes quantidades de dados, eles têm limitações quanto aos tipos de dados coletados e como esses dados são obtidos.

em primeiro lugar, no que diz respeito aos dados que devem ser coletados: o desenvolvimento de IA é prejudicado por gargalos na qualidade e quantidade de dados. Leopold Aschenbrenner discutiu a "parede de dados" que limita melhorias adicionais nos algoritmos: "em breve, a abordagem simples de pré-treinar modelos de linguagem maiores com mais dados raspados pode enfrentar gargalos significativos."

Uma maneira de superar a barreira dos dados é disponibilizar novos conjuntos de dados. Por exemplo, as empresas-modelo não podem raspar dados protegidos por login sem violar os termos de serviço da maioria dos sites, e não podem acessar dados que não foram coletados. Atualmente, há uma vasta quantidade de dados privados que o treinamento de IA não pode acessar, como dados do Google Drive, Slack, registros de saúde pessoal e outras informações privadas.

Em segundo lugar, em relação à forma como os dados são coletados: no modelo atual, as empresas de coleta de dados capturam a maior parte do valor. O registro S-1 da Reddit destaca as licenças de dados como uma importante fonte de receita antecipada: 'esperamos que nossa crescente vantagem em dados e propriedade intelectual permaneçam elementos-chave no futuro treinamento LLM.' No entanto, os usuários finais que geram o conteúdo real não recebem nenhum benefício econômico desses acordos de licenciamento ou dos próprios modelos de AI. Essa falta de alinhamento pode desencorajar a participação - já existem movimentos para processar empresas de AI generativas ou optar por não treinar conjuntos de dados. Além disso, concentrar a receita nas mãos de empresas ou plataformas de modelo sem compartilhá-la com os usuários finais tem importantes implicações socioeconômicas.

2. o impacto dos data daos

as questões de dados mencionadas anteriormente partilham um tema comum: beneficiam de contribuições substanciais de amostras de utilizadores diversos e representativos. enquanto um único ponto de dados pode ter impacto negligenciável no desempenho do modelo, coletivamente, um grande grupo de utilizadores pode gerar novos conjuntos de dados que são altamente valiosos para o treino de ia. é aqui que entram em jogo as organizações autônomas descentralizadas de dados (daos). com os daos de dados, os contribuintes de dados podem ganhar recompensas económicas por fornecerem dados e podem controlar como os seus dados são utilizados e monetizados.

em que áreas os daos de dados podem ter um impacto significativo no atual cenário de dados? aqui estão algumas ideias - esta não é uma lista exaustiva, e os daos de dados certamente têm outras oportunidades:

(1) dados do mundo real
No campo da infraestrutura física descentralizada (depin), redes como a Hivemapper têm como objetivo coletar os dados mais recentes do mapa global, incentivando os proprietários de câmeras de painel a compartilhar seus dados e encorajando os usuários a fornecer dados por meio de seus aplicativos (por exemplo, informações sobre fechamentos ou reparos de estradas). Depin pode ser visto como um DAO de dados do mundo real, onde conjuntos de dados são gerados a partir de dispositivos de hardware e/ou redes de usuários. Esses dados têm valor comercial para muitas empresas e os contribuintes são recompensados com tokens.

(2) dados de saúde pessoal
A biohacking é um movimento social em que indivíduos e comunidades adotam uma abordagem de faça-você-mesmo para estudar biologia, muitas vezes experimentando em si mesmos. Por exemplo, alguém pode usar diferentes drogas nootrópicas para melhorar o desempenho cerebral, experimentar diversos tratamentos ou mudanças ambientais para melhorar o sono, ou até mesmo se injetar com substâncias experimentais.

As DAOs de dados podem apoiar esses esforços de biohacking ao organizar participantes em torno de experimentos compartilhados e coletar sistematicamente os resultados. A receita gerada por essas DAOs de saúde pessoal, como de laboratórios de pesquisa ou empresas farmacêuticas, pode ser devolvida aos participantes que contribuíram com seus dados de saúde pessoal.

(3) aprendizado por reforço com feedback humano
A aprendizagem por reforço com feedback humano (RLHF) envolve o uso de entradas humanas para ajustar modelos de IA e melhorar seu desempenho. Normalmente, o feedback vem de especialistas em campos específicos que podem avaliar efetivamente a saída do modelo. Por exemplo, um laboratório de pesquisa pode buscar a ajuda de um PhD em matemática para melhorar as capacidades matemáticas de sua IA. Recompensas em forma de tokens podem atrair e incentivar especialistas a participar, oferecendo valor especulativo e acesso global por meio de sistemas de pagamento cripto. Empresas como Sapien, Fraction e Sahara estão trabalhando ativamente nessa área.

(4) dados privados
À medida que os dados públicos disponíveis para o treino de IA se tornam mais escassos, o foco pode mudar para conjuntos de dados proprietários, incluindo dados de usuários privados. Por trás de paredes de login, há uma riqueza de dados de alta qualidade que permanece inacessível, como mensagens e documentos privados. Esses dados podem ser altamente eficazes para o treino de IA personalizada e contêm informações valiosas não encontradas na internet pública.

o acesso e uso desses dados apresentam desafios legais e éticos significativos. Os data daos podem oferecer uma solução, permitindo que participantes dispostos façam upload e monetizem seus dados enquanto gerenciam seu uso. Por exemplo, um data dao do Reddit poderia permitir que os usuários façam upload de seus dados exportados do Reddit, incluindo comentários, postagens e histórico de votação, que poderiam ser vendidos ou alugados para empresas de IA de forma a proteger a privacidade. Incentivos de token permitem que os usuários ganhem não apenas com uma transação única, mas também com o valor contínuo gerado por modelos de IA treinados com seus dados.

3. problemas e desafios em aberto

Embora os data daos ofereçam benefícios significativos, existem várias considerações e desafios importantes a serem abordados.

(1) distorção de incentivos
uma lição chave da história do uso de incentivos de token em criptomoedas é que recompensas externas podem alterar o comportamento do usuário. Isso tem implicações diretas para o uso de incentivos de token para coletar dados: os incentivos podem distorcer o grupo de participantes e os tipos de dados que eles contribuem.

a introdução de incentivos em token também abre a possibilidade de os participantes explorarem o sistema, como ao submeterem dados de baixa qualidade ou fabricados para maximizarem os seus rendimentos. isto é crucial porque o sucesso dos data daos depende da qualidade dos dados. se as contribuições se desviarem do objetivo desejado, o valor do conjunto de dados pode ser comprometido.

(2) medição e recompensa de dados

a ideia central dos data daos é recompensar os contribuintes pelas suas submissões de dados com tokens, que irão gerar receitas para o dao a longo prazo. no entanto, devido à natureza subjetiva do valor dos dados, determinar a recompensa apropriada para diferentes contribuições de dados é altamente desafiador. por exemplo, no cenário de biohacking: os dados de alguns utilizadores são mais valiosos do que outros? se sim, que fatores determinam isso? para dados de mapas: a informação de certas áreas é mais valiosa do que de outras? como devem estas diferenças ser quantificadas? (a pesquisa sobre a medição do valor dos dados em ai, através da avaliação da contribuição incremental dos dados para o desempenho do modelo, está em curso, mas pode ser computacionalmente intensiva.)

Além disso, é essencial estabelecer mecanismos robustos para verificar a autenticidade e precisão dos dados. Sem essas medidas, o sistema poderia estar vulnerável a envios de dados fraudulentos (por exemplo, criação de contas falsas) ou ataques de Sybil. As redes Depin abordam esse problema integrando a verificação no nível do dispositivo de hardware, mas outros tipos de DAOs de dados que dependem das contribuições do usuário podem ser mais suscetíveis à manipulação.

(3) valor incremental de novos dados
A maioria das redes abertas já foi aproveitada para fins de treinamento, portanto, os operadores do data dao devem considerar se os conjuntos de dados coletados de forma descentralizada realmente adicionam valor incremental aos dados existentes em redes abertas e se os pesquisadores podem acessar esses dados da plataforma ou por outros meios. Esta ideia destaca a importância da coleta de dados completamente novos que superem o que está atualmente disponível, levando à próxima consideração: a escala de impacto e oportunidades de receita.

(4) avaliar oportunidades de receita
Fundamentalmente, os DAOs de dados estão construindo um mercado de dois lados que conecta compradores de dados com contribuintes de dados. Portanto, o sucesso de um DAO de dados depende de sua capacidade de atrair uma base de clientes estável e diversificada disposta a pagar por dados.

Os DAOs de dados precisam identificar e confirmar a demanda por seus dados e garantir que as oportunidades de receita sejam significativas o suficiente (seja no total ou por colaborador) para motivar a quantidade e a qualidade necessárias dos dados. Por exemplo, o conceito de criar um DAO de dados do usuário para agregar preferências pessoais e dados de navegação para fins publicitários tem sido discutido há anos, mas os retornos potenciais para os usuários podem ser mínimos. (Para contextualizar, o ARPU global da Meta era de US$ 13,12 no final de 2023.) Com as empresas de IA planejando investir trilhões de dólares em treinamento, os ganhos potenciais com dados podem ser suficientes para incentivar contribuições em larga escala, levantando uma questão intrigante para o Data Dao: "Por que agora?"

4. rompendo a barreira de dados

Os data daos oferecem uma solução promissora para a criação de novos conjuntos de dados de alta qualidade e para superar a barreira de dados que desafia a inteligência artificial. Embora os métodos exatos para alcançar isso ainda estejam por determinar, estamos entusiasmados para ver como esse campo evolui.

disclaimer:

  1. este artigo é republicado de [Finanças Jinse], e os direitos autorais pertencem ao autor original [li jin]. se você tiver alguma objeção a esta reprodução, entre em contato com a equipe do gate learn em[email protected].a equipe abordará prontamente qualquer preocupação de acordo com os procedimentos relevantes.
  2. Aviso legal: as opiniões expressas neste artigo são exclusivas do autor e não constituem qualquer conselho de investimento.
  3. outras versões deste artigo foram traduzidas pela equipa Gate Learn. sem mencionarGate.ioOs artigos traduzidos podem não ser copiados, distribuídos ou plagiados.
Comece agora
Registe-se e ganhe um cupão de
100 USD
!