recentes acordos de autorização de dados notáveis, como aqueles entre openai e news corp e reddit, enfatizam a necessidade de dados de alta qualidade em ai. os principais modelos de ai já foram treinados em uma parte significativa da internet. por exemplo, o common crawl indexou cerca de 10% das páginas da web para treinamento de grandes modelos de linguagem, o que inclui mais de 100 trilhões de tokens.
Para melhorar ainda mais os modelos de inteligência artificial, é essencial expandir e aprimorar os dados disponíveis para treinamento. Temos discutido formas de agregar dados, especialmente por meio de métodos descentralizados. Estamos particularmente interessados em como abordagens descentralizadas podem ajudar a criar novos conjuntos de dados e oferecer incentivos econômicos aos contribuintes e criadores.
Nos últimos anos, um dos temas quentes no mundo das criptomoedas tem sido o conceito de data daos, que são grupos de pessoas que criam, organizam e gerenciam dados. Embora esse tema tenha sido discutido pela multicoin e outros, o rápido avanço da IA levanta uma nova questão: "por que agora é o momento certo para os data daos?"
Neste artigo, compartilharemos nossos insights sobre data daos para abordar a pergunta: como os data daos podem acelerar o desenvolvimento de IA?
hoje, os modelos de IA são principalmente treinados em dados públicos, seja por meio de parcerias com empresas como a news corp e o reddit ou pela raspagem de dados da internet aberta. por exemplo, o llama 3 da meta foi treinado usando 15 trilhões de tokens de fontes públicas. embora esses métodos sejam eficazes para reunir rapidamente grandes quantidades de dados, eles têm limitações quanto aos tipos de dados coletados e como esses dados são obtidos.
Primeiro, quanto aos dados que devem ser coletados: o desenvolvimento de IA é prejudicado por gargalos na qualidade e quantidade de dados. Leopold Aschenbrenner discutiu a "parede de dados" que limita melhorias adicionais nos algoritmos: "em breve, a abordagem simples de pré-treinar modelos de linguagem maiores com mais dados coletados pode enfrentar gargalos significativos."
Uma maneira de superar a barreira dos dados é disponibilizar novos conjuntos de dados. Por exemplo, as empresas-modelo não podem raspar dados protegidos por login sem violar a maioria dos termos de serviço dos sites, e não podem acessar dados que não foram coletados. Atualmente, existe uma vasta quantidade de dados privados aos quais o treinamento de IA não pode acessar, como dados do Google Drive, Slack, registros de saúde pessoal e outras informações privadas.
Em segundo lugar, em relação à forma como os dados são coletados: no modelo atual, as empresas de coleta de dados capturam a maior parte do valor. O arquivo S-1 do Reddit destaca a licença de dados como uma importante fonte de receita esperada: "esperamos que nossa vantagem de dados em crescimento e propriedade intelectual continuem sendo elementos-chave na futura formação de LLM." No entanto, os usuários finais que geram o conteúdo real não recebem nenhum benefício econômico desses acordos de licenciamento ou dos próprios modelos de IA. Essa falta de alinhamento pode desencorajar a participação - já existem movimentos para processar empresas de IA generativa ou optar por não usar conjuntos de dados de treinamento. Além disso, concentrar a receita nas mãos de empresas de modelos ou plataformas sem compartilhá-la com os usuários finais tem importantes implicações socioeconômicas.
as questões de dados mencionadas anteriormente compartilham um tema comum: elas se beneficiam de contribuições substanciais de amostras de usuários diversos e representativos. embora qualquer ponto de dados único possa ter impacto negligenciável no desempenho do modelo, coletivamente, um grande grupo de usuários pode gerar novos conjuntos de dados altamente valiosos para treinamento de IA. é aqui que entram em jogo as DAOs de dados (organizações autônomas descentralizadas de dados). com as DAOs de dados, os contribuidores de dados podem ganhar recompensas econômicas por fornecer dados e podem controlar como seus dados são usados e monetizados.
Em quais áreas os data daos podem ter um impacto significativo na paisagem de dados atual? Aqui estão algumas ideias - esta não é uma lista exaustiva e os data daos certamente têm outras oportunidades:
(1) dados do mundo real
No campo da infraestrutura física descentralizada (DEPIN), redes como a Hivemapper têm como objetivo coletar os dados globais mais recentes do mapa, incentivando os proprietários de dashcam a compartilhar seus dados e encorajando os usuários a fornecer dados por meio de seus aplicativos (por exemplo, informações sobre fechamentos ou reparos de estradas). DEPIN pode ser visto como um DAO de dados do mundo real, onde conjuntos de dados são gerados a partir de dispositivos de hardware e/ou redes de usuários. Esses dados têm valor comercial para muitas empresas e os contribuintes são recompensados com tokens.
(2) dados pessoais de saúde
A biohacking é um movimento social em que indivíduos e comunidades adotam uma abordagem faça-você-mesmo para estudar biologia, frequentemente experimentando em si mesmos. Por exemplo, alguém pode usar diferentes drogas nootrópicas para melhorar o desempenho cerebral, tentar vários tratamentos ou mudanças ambientais para melhorar o sono, ou até mesmo se injetar com substâncias experimentais.
Os data daos podem apoiar esses esforços de biohacking ao organizar participantes em torno de experimentos compartilhados e coletar sistematicamente os resultados. A renda gerada por esses data daos de saúde pessoal, como de laboratórios de pesquisa ou empresas farmacêuticas, pode ser devolvida aos participantes que contribuíram com seus dados de saúde pessoal.
(3) aprendizado por reforço com feedback humano
A aprendizagem por reforço com feedback humano (RLHF) envolve o uso de entrada humana para ajustar modelos de IA e melhorar seu desempenho. Tipicamente, o feedback vem de especialistas em campos específicos que podem avaliar efetivamente a saída do modelo. Por exemplo, um laboratório de pesquisa pode procurar assistência de um PhD em matemática para melhorar as capacidades matemáticas de sua IA. Recompensas de tokens podem atrair e incentivar especialistas a participar, oferecendo valor especulativo e acesso global por meio de sistemas de pagamento de criptomoedas. Empresas como Sapien, Fraction e Sahara estão trabalhando ativamente nessa área.
(4) dados privados
à medida que os dados públicos disponíveis para treinamento de IA se tornam mais escassos, o foco pode se voltar para conjuntos de dados proprietários, incluindo dados de usuários privados. atrás das paredes de login, há uma riqueza de dados de alta qualidade que permanecem inacessíveis, como mensagens e documentos privados. esses dados podem ser altamente eficazes para o treinamento de IA personalizada e contêm informações valiosas não encontradas na internet pública.
acessar e usar esses dados apresenta desafios legais e éticos significativos. data daos podem oferecer uma solução ao permitir que participantes dispostos façam upload e monetizem seus dados enquanto gerenciam seu uso. por exemplo, um data dao do reddit poderia permitir que os usuários façam upload de seus dados exportados do reddit, incluindo comentários, postagens e histórico de votação, que poderiam ser vendidos ou alugados para empresas de IA de forma a proteger a privacidade. incentivos em token permitem que os usuários ganhem não apenas com uma transação única, mas também com o valor contínuo gerado pelos modelos de IA treinados com seus dados.
embora os data daos ofereçam benefícios potenciais significativos, existem várias considerações e desafios importantes a serem abordados.
(1) distorção de incentivos
uma lição chave da história do uso de incentivos de token em criptografia é que recompensas externas podem alterar o comportamento do usuário. Isso tem implicações diretas para o uso de incentivos de token para coletar dados: os incentivos podem distorcer o grupo de participantes e os tipos de dados que eles contribuem.
A introdução de incentivos de token também abre a possibilidade de participantes explorarem o sistema, como ao enviar dados de baixa qualidade ou fabricados para maximizar sua renda. Isso é crítico porque o sucesso de DAOs de dados depende da qualidade dos dados. Se as contribuições se desviarem do objetivo desejado, o valor do conjunto de dados pode ser comprometido.
(2) medindo e recompensando dados
A ideia central dos Data DAOs é recompensar os contribuidores por suas submissões de dados com tokens, que gerarão receita para o DAO a longo prazo. No entanto, devido à natureza subjetiva do valor dos dados, determinar a recompensa apropriada para diferentes contribuições de dados é extremamente desafiador. Por exemplo, no cenário de biohacking: os dados de alguns usuários são mais valiosos do que de outros? Se sim, quais fatores determinam isso? Para dados de mapas: as informações de certas áreas são mais valiosas do que de outras? Como essas diferenças devem ser quantificadas? (A pesquisa sobre a medição do valor dos dados em IA, avaliando a contribuição incremental dos dados para o desempenho do modelo, está em andamento, mas pode ser computacionalmente intensiva.)
Além disso, é essencial estabelecer mecanismos robustos para verificar a autenticidade e precisão dos dados. Sem essas medidas, o sistema poderia ficar vulnerável a envios de dados fraudulentos (por exemplo, criação de contas falsas) ou ataques de sybil. As redes da Depin abordam esse problema integrando a verificação no nível do dispositivo de hardware, mas outros tipos de DAOs de dados que dependem das contribuições do usuário podem ser mais suscetíveis à manipulação.
(3) valor incremental dos novos dados
A maioria das redes abertas já foi aproveitada para fins de treinamento, então os operadores de data dao devem considerar se os conjuntos de dados coletados de forma descentralizada realmente adicionam valor incremental aos dados existentes em redes abertas, e se os pesquisadores podem acessar esses dados da plataforma ou por outros meios. Essa ideia destaca a importância de reunir dados inteiramente novos que superem o que está disponível atualmente, levando à próxima consideração: a escala de impacto e oportunidades de receita.
(4) avaliando oportunidades de receita
Fundamentalmente, os data daos estão construindo um mercado de duas faces que conecta compradores de dados com contribuidores de dados. Portanto, o sucesso de um data dao depende de sua capacidade de atrair uma base de clientes estável e diversificada disposta a pagar por dados.
Os data daos precisam identificar e confirmar a demanda por seus dados e garantir que as oportunidades de receita sejam significativas o suficiente (seja no total ou por contribuidor) para motivar a quantidade e qualidade de dados necessárias. Por exemplo, o conceito de criar um user data dao para agregar preferências pessoais e dados de navegação para fins publicitários vem sendo discutido há anos, mas o retorno potencial para os usuários pode ser mínimo. (Para contexto, o ARPU global da Meta foi de $13,12 no final de 2023.) Com empresas de IA planejando investir trilhões de dólares em treinamento, os ganhos potenciais com dados podem ser suficientes para incentivar contribuições em grande escala, levantando uma questão intrigante para os data daos: “por que agora?”
DAOs de dados oferecem uma solução promissora para criar conjuntos de dados novos e de alta qualidade e superar a barreira de dados que desafia a inteligência artificial. Embora os métodos exatos para alcançar isso ainda estejam para ser determinados, estamos empolgados para ver como esse campo evolui.
recentes acordos de autorização de dados notáveis, como aqueles entre openai e news corp e reddit, enfatizam a necessidade de dados de alta qualidade em ai. os principais modelos de ai já foram treinados em uma parte significativa da internet. por exemplo, o common crawl indexou cerca de 10% das páginas da web para treinamento de grandes modelos de linguagem, o que inclui mais de 100 trilhões de tokens.
Para melhorar ainda mais os modelos de inteligência artificial, é essencial expandir e aprimorar os dados disponíveis para treinamento. Temos discutido formas de agregar dados, especialmente por meio de métodos descentralizados. Estamos particularmente interessados em como abordagens descentralizadas podem ajudar a criar novos conjuntos de dados e oferecer incentivos econômicos aos contribuintes e criadores.
Nos últimos anos, um dos temas quentes no mundo das criptomoedas tem sido o conceito de data daos, que são grupos de pessoas que criam, organizam e gerenciam dados. Embora esse tema tenha sido discutido pela multicoin e outros, o rápido avanço da IA levanta uma nova questão: "por que agora é o momento certo para os data daos?"
Neste artigo, compartilharemos nossos insights sobre data daos para abordar a pergunta: como os data daos podem acelerar o desenvolvimento de IA?
hoje, os modelos de IA são principalmente treinados em dados públicos, seja por meio de parcerias com empresas como a news corp e o reddit ou pela raspagem de dados da internet aberta. por exemplo, o llama 3 da meta foi treinado usando 15 trilhões de tokens de fontes públicas. embora esses métodos sejam eficazes para reunir rapidamente grandes quantidades de dados, eles têm limitações quanto aos tipos de dados coletados e como esses dados são obtidos.
Primeiro, quanto aos dados que devem ser coletados: o desenvolvimento de IA é prejudicado por gargalos na qualidade e quantidade de dados. Leopold Aschenbrenner discutiu a "parede de dados" que limita melhorias adicionais nos algoritmos: "em breve, a abordagem simples de pré-treinar modelos de linguagem maiores com mais dados coletados pode enfrentar gargalos significativos."
Uma maneira de superar a barreira dos dados é disponibilizar novos conjuntos de dados. Por exemplo, as empresas-modelo não podem raspar dados protegidos por login sem violar a maioria dos termos de serviço dos sites, e não podem acessar dados que não foram coletados. Atualmente, existe uma vasta quantidade de dados privados aos quais o treinamento de IA não pode acessar, como dados do Google Drive, Slack, registros de saúde pessoal e outras informações privadas.
Em segundo lugar, em relação à forma como os dados são coletados: no modelo atual, as empresas de coleta de dados capturam a maior parte do valor. O arquivo S-1 do Reddit destaca a licença de dados como uma importante fonte de receita esperada: "esperamos que nossa vantagem de dados em crescimento e propriedade intelectual continuem sendo elementos-chave na futura formação de LLM." No entanto, os usuários finais que geram o conteúdo real não recebem nenhum benefício econômico desses acordos de licenciamento ou dos próprios modelos de IA. Essa falta de alinhamento pode desencorajar a participação - já existem movimentos para processar empresas de IA generativa ou optar por não usar conjuntos de dados de treinamento. Além disso, concentrar a receita nas mãos de empresas de modelos ou plataformas sem compartilhá-la com os usuários finais tem importantes implicações socioeconômicas.
as questões de dados mencionadas anteriormente compartilham um tema comum: elas se beneficiam de contribuições substanciais de amostras de usuários diversos e representativos. embora qualquer ponto de dados único possa ter impacto negligenciável no desempenho do modelo, coletivamente, um grande grupo de usuários pode gerar novos conjuntos de dados altamente valiosos para treinamento de IA. é aqui que entram em jogo as DAOs de dados (organizações autônomas descentralizadas de dados). com as DAOs de dados, os contribuidores de dados podem ganhar recompensas econômicas por fornecer dados e podem controlar como seus dados são usados e monetizados.
Em quais áreas os data daos podem ter um impacto significativo na paisagem de dados atual? Aqui estão algumas ideias - esta não é uma lista exaustiva e os data daos certamente têm outras oportunidades:
(1) dados do mundo real
No campo da infraestrutura física descentralizada (DEPIN), redes como a Hivemapper têm como objetivo coletar os dados globais mais recentes do mapa, incentivando os proprietários de dashcam a compartilhar seus dados e encorajando os usuários a fornecer dados por meio de seus aplicativos (por exemplo, informações sobre fechamentos ou reparos de estradas). DEPIN pode ser visto como um DAO de dados do mundo real, onde conjuntos de dados são gerados a partir de dispositivos de hardware e/ou redes de usuários. Esses dados têm valor comercial para muitas empresas e os contribuintes são recompensados com tokens.
(2) dados pessoais de saúde
A biohacking é um movimento social em que indivíduos e comunidades adotam uma abordagem faça-você-mesmo para estudar biologia, frequentemente experimentando em si mesmos. Por exemplo, alguém pode usar diferentes drogas nootrópicas para melhorar o desempenho cerebral, tentar vários tratamentos ou mudanças ambientais para melhorar o sono, ou até mesmo se injetar com substâncias experimentais.
Os data daos podem apoiar esses esforços de biohacking ao organizar participantes em torno de experimentos compartilhados e coletar sistematicamente os resultados. A renda gerada por esses data daos de saúde pessoal, como de laboratórios de pesquisa ou empresas farmacêuticas, pode ser devolvida aos participantes que contribuíram com seus dados de saúde pessoal.
(3) aprendizado por reforço com feedback humano
A aprendizagem por reforço com feedback humano (RLHF) envolve o uso de entrada humana para ajustar modelos de IA e melhorar seu desempenho. Tipicamente, o feedback vem de especialistas em campos específicos que podem avaliar efetivamente a saída do modelo. Por exemplo, um laboratório de pesquisa pode procurar assistência de um PhD em matemática para melhorar as capacidades matemáticas de sua IA. Recompensas de tokens podem atrair e incentivar especialistas a participar, oferecendo valor especulativo e acesso global por meio de sistemas de pagamento de criptomoedas. Empresas como Sapien, Fraction e Sahara estão trabalhando ativamente nessa área.
(4) dados privados
à medida que os dados públicos disponíveis para treinamento de IA se tornam mais escassos, o foco pode se voltar para conjuntos de dados proprietários, incluindo dados de usuários privados. atrás das paredes de login, há uma riqueza de dados de alta qualidade que permanecem inacessíveis, como mensagens e documentos privados. esses dados podem ser altamente eficazes para o treinamento de IA personalizada e contêm informações valiosas não encontradas na internet pública.
acessar e usar esses dados apresenta desafios legais e éticos significativos. data daos podem oferecer uma solução ao permitir que participantes dispostos façam upload e monetizem seus dados enquanto gerenciam seu uso. por exemplo, um data dao do reddit poderia permitir que os usuários façam upload de seus dados exportados do reddit, incluindo comentários, postagens e histórico de votação, que poderiam ser vendidos ou alugados para empresas de IA de forma a proteger a privacidade. incentivos em token permitem que os usuários ganhem não apenas com uma transação única, mas também com o valor contínuo gerado pelos modelos de IA treinados com seus dados.
embora os data daos ofereçam benefícios potenciais significativos, existem várias considerações e desafios importantes a serem abordados.
(1) distorção de incentivos
uma lição chave da história do uso de incentivos de token em criptografia é que recompensas externas podem alterar o comportamento do usuário. Isso tem implicações diretas para o uso de incentivos de token para coletar dados: os incentivos podem distorcer o grupo de participantes e os tipos de dados que eles contribuem.
A introdução de incentivos de token também abre a possibilidade de participantes explorarem o sistema, como ao enviar dados de baixa qualidade ou fabricados para maximizar sua renda. Isso é crítico porque o sucesso de DAOs de dados depende da qualidade dos dados. Se as contribuições se desviarem do objetivo desejado, o valor do conjunto de dados pode ser comprometido.
(2) medindo e recompensando dados
A ideia central dos Data DAOs é recompensar os contribuidores por suas submissões de dados com tokens, que gerarão receita para o DAO a longo prazo. No entanto, devido à natureza subjetiva do valor dos dados, determinar a recompensa apropriada para diferentes contribuições de dados é extremamente desafiador. Por exemplo, no cenário de biohacking: os dados de alguns usuários são mais valiosos do que de outros? Se sim, quais fatores determinam isso? Para dados de mapas: as informações de certas áreas são mais valiosas do que de outras? Como essas diferenças devem ser quantificadas? (A pesquisa sobre a medição do valor dos dados em IA, avaliando a contribuição incremental dos dados para o desempenho do modelo, está em andamento, mas pode ser computacionalmente intensiva.)
Além disso, é essencial estabelecer mecanismos robustos para verificar a autenticidade e precisão dos dados. Sem essas medidas, o sistema poderia ficar vulnerável a envios de dados fraudulentos (por exemplo, criação de contas falsas) ou ataques de sybil. As redes da Depin abordam esse problema integrando a verificação no nível do dispositivo de hardware, mas outros tipos de DAOs de dados que dependem das contribuições do usuário podem ser mais suscetíveis à manipulação.
(3) valor incremental dos novos dados
A maioria das redes abertas já foi aproveitada para fins de treinamento, então os operadores de data dao devem considerar se os conjuntos de dados coletados de forma descentralizada realmente adicionam valor incremental aos dados existentes em redes abertas, e se os pesquisadores podem acessar esses dados da plataforma ou por outros meios. Essa ideia destaca a importância de reunir dados inteiramente novos que superem o que está disponível atualmente, levando à próxima consideração: a escala de impacto e oportunidades de receita.
(4) avaliando oportunidades de receita
Fundamentalmente, os data daos estão construindo um mercado de duas faces que conecta compradores de dados com contribuidores de dados. Portanto, o sucesso de um data dao depende de sua capacidade de atrair uma base de clientes estável e diversificada disposta a pagar por dados.
Os data daos precisam identificar e confirmar a demanda por seus dados e garantir que as oportunidades de receita sejam significativas o suficiente (seja no total ou por contribuidor) para motivar a quantidade e qualidade de dados necessárias. Por exemplo, o conceito de criar um user data dao para agregar preferências pessoais e dados de navegação para fins publicitários vem sendo discutido há anos, mas o retorno potencial para os usuários pode ser mínimo. (Para contexto, o ARPU global da Meta foi de $13,12 no final de 2023.) Com empresas de IA planejando investir trilhões de dólares em treinamento, os ganhos potenciais com dados podem ser suficientes para incentivar contribuições em grande escala, levantando uma questão intrigante para os data daos: “por que agora?”
DAOs de dados oferecem uma solução promissora para criar conjuntos de dados novos e de alta qualidade e superar a barreira de dados que desafia a inteligência artificial. Embora os métodos exatos para alcançar isso ainda estejam para ser determinados, estamos empolgados para ver como esse campo evolui.