Camada de Dados Descentralizada: A Nova Infraestrutura para a Era da IA #247

intermediário11/26/2024, 4:28:16 AM
Anteriormente, discutimos como a AI e a Web3 podem se complementar em várias indústrias verticais, como redes computacionais, plataformas intermediárias e aplicativos para consumidores. Ao focar nos recursos de dados como um campo vertical, os projetos Web emergentes oferecem novas possibilidades para a aquisição, compartilhamento e utilização de dados.

TL/DR

Anteriormente discutimos como a IA e a Web3 podem se complementar em setores verticais como redes computacionais, plataformas intermediárias e aplicações de consumidores. Ao focar nos recursos de dados como um campo vertical, os novos projetos da Web oferecem novas possibilidades para a aquisição, compartilhamento e utilização de dados.

  • Os provedores de dados tradicionais têm dificuldade em atender à demanda por dados de alta qualidade, em tempo real e verificáveis na IA e em outras indústrias orientadas por dados, especialmente em termos de transparência, controle do usuário e proteção de privacidade.
  • As soluções Web3 estão remodelando o ecossistema de dados. Tecnologias como MPC (Computação Multi-Partidária), provas de conhecimento zero e TLS Notary garantem autenticidade e privacidade dos dados durante o fluxo entre múltiplas fontes, enquanto o armazenamento distribuído e a computação de borda oferecem maior flexibilidade e eficiência no processamento de dados em tempo real.
  • Redes de dados descentralizadas como infraestrutura emergente deram origem a vários projetos representativos, como OpenLayer (uma camada de dados real modular), Grass (alavancando a largura de banda ociosa do usuário e redes descentralizadas de nós rastreadores) e Vana (uma rede de soberania de dados do usuário), que abrem novas perspectivas para campos como treinamento de IA e aplicações por meio de diferentes caminhos tecnológicos.
  • Ao aproveitar a capacidade de crowdsourcing, camadas de abstração sem confiança e mecanismos de incentivo baseados em tokens, a infraestrutura de dados descentralizada pode oferecer soluções mais privadas, seguras, eficientes e econômicas em comparação com os gigantes da Web2. Também capacita os usuários com controle sobre seus dados e recursos relacionados, construindo um ecossistema digital mais aberto, seguro e interconectado.

1. O aumento na demanda por dados

Os dados se tornaram o principal impulsionador da inovação e da tomada de decisões em todas as indústrias. O UBS prevê que o volume global de dados aumentará dez vezes de 2020 a 2030, atingindo 660 ZB. Até 2025, espera-se que cada indivíduo global gere 463 EB (exabytes, 1 EB = 1 bilhão de GB) de dados diariamente. O mercado de Data-as-a-Service (DaaS) está se expandindo rapidamente. De acordo com a Grand View Research, o mercado global de DaaS foi avaliado em US$ 14,36 bilhões em 2023 e espera-se que cresça a uma taxa de crescimento anual composta (CAGR) de 28,1%, atingindo US$ 76,8 bilhões até 2030.

O treinamento do modelo de IA depende muito de conjuntos de dados grandes para identificar padrões e ajustar parâmetros. Após o treinamento, também são necessários conjuntos de dados para testar o desempenho e as capacidades de generalização dos modelos. Além disso, agentes de IA, como formas emergentes de aplicação inteligente, requerem fontes de dados em tempo real e confiáveis para garantir tomadas de decisão precisas e execução de tarefas.

(Fonte: Leewayhertz)

A demanda por análise de negócios também está se tornando mais diversificada e generalizada, servindo como uma ferramenta fundamental para impulsionar a inovação empresarial. Por exemplo, plataformas de mídia social e empresas de pesquisa de mercado precisam de dados confiáveis sobre o comportamento do usuário para formular estratégias e analisar tendências, integrando dados diversos de várias plataformas sociais para construir uma imagem mais abrangente.

Para o ecossistema Web3, dados confiáveis e autênticos também são necessários on-chain para apoiar novos produtos financeiros. À medida que mais ativos inovadores são tokenizados, interfaces de dados flexíveis e confiáveis são necessárias para apoiar o desenvolvimento de produtos e gestão de riscos, permitindo que contratos inteligentes sejam executados com base em dados verificáveis em tempo real.

Além disso, os casos de uso em pesquisa científica, IoT e outras áreas destacam a demanda crescente e explosiva por dados diversos, autênticos e em tempo real. Os sistemas tradicionais podem ter dificuldade em lidar com o volume de dados em rápido crescimento e as demandas em constante mudança.

2. Limitações e Desafios dos Ecossistemas de Dados Tradicionais

Um ecossistema de dados típico inclui coleta, armazenamento, processamento, análise e aplicação de dados. Modelos centralizados são caracterizados pela coleta e armazenamento centralizados de dados, gerenciados por uma equipe central de TI com controle rígido de acesso. Por exemplo, o ecossistema de dados do Google abrange várias fontes de dados como mecanismos de busca, Gmail e o sistema operacional Android. Essas plataformas coletam dados do usuário, armazenam em centros de dados globalmente distribuídos e processam usando algoritmos para apoiar o desenvolvimento e a otimização de vários produtos e serviços.

Nos mercados financeiros, a LSEG (anteriormente Refinitiv) reúne dados em tempo real e históricos de bolsas globais, bancos e grandes instituições financeiras, enquanto utiliza sua rede proprietária de Notícias Reuters para coletar notícias relacionadas ao mercado. Eles processam essas informações usando algoritmos e modelos proprietários para gerar análises e produtos de avaliação de risco como serviços de valor agregado.

(Fonte: kdnuggets.com)

Embora a arquitetura de dados tradicional seja eficaz em serviços profissionais, as limitações dos modelos centralizados estão se tornando cada vez mais evidentes, especialmente na cobertura de fontes de dados emergentes, transparência e proteção da privacidade do usuário. Abaixo estão algumas questões-chave:

  • Cobertura de dados insuficiente: Os provedores de dados tradicionais têm dificuldade em capturar e analisar rapidamente fontes de dados emergentes, como o sentimento das mídias sociais e os dados de dispositivos de IoT. Sistemas centralizados têm dificuldade em adquirir e integrar eficientemente dados "de cauda longa" de inúmeras fontes pequenas ou não convencionais.

Por exemplo, o evento GameStop de 2021 revelou as limitações dos provedores tradicionais de dados financeiros na análise do sentimento das mídias sociais. O sentimento do investidor em plataformas como o Reddit influenciou rapidamente as tendências de mercado, mas terminais de dados como Bloomberg e Reuters falharam em capturar essas dinâmicas a tempo, levando a previsões de mercado atrasadas.

  • Acesso limitado aos dados: O monopólio limita o acesso. Muitos provedores tradicionais abrem partes de seus dados por meio de APIs/serviços em nuvem, mas taxas de acesso elevadas e processos de autorização complexos aumentam a dificuldade da integração de dados. Desenvolvedores on-chain têm dificuldade em acessar rapidamente dados off-chain confiáveis, com dados de alta qualidade monopolizados por alguns gigantes a um custo alto.
  • Questões de Transparência e Credibilidade dos Dados: Muitos provedores de dados centralizados carecem de transparência em seus métodos de coleta e processamento de dados. Mecanismos eficazes para verificar a autenticidade e completude de dados em larga escala também são escassos. A verificação de dados em tempo real em grande escala continua sendo complexa, e a natureza centralizada aumenta o risco de adulteração ou manipulação de dados.
  • Proteção da privacidade e propriedade dos dados: As grandes empresas de tecnologia comercializaram extensivamente os dados do usuário. Os usuários, como os criadores dos dados pessoais, raramente obtêm o devido valor deles. Muitas vezes, eles não conseguem entender como seus dados são coletados, processados ou usados, nem podem decidir sobre o escopo e a forma de seu uso. A supercoleta e o uso indevido também resultam em graves riscos de privacidade. Por exemplo, o escândalo da Cambridge Analytica do Facebook expôs falhas significativas na transparência e proteção da privacidade nos ecossistemas tradicionais de dados.
  • Silos de dados: Dados em tempo real de diferentes fontes e formatos são desafiadores de integrar rapidamente, dificultando a análise abrangente. Grande parte desses dados permanece bloqueada dentro das organizações, limitando o compartilhamento e a inovação entre indústrias e organizações. Esse efeito de "silo de dados" obstrui a integração e análise de dados entre diferentes domínios. Por exemplo, na indústria de consumo, as marcas precisam integrar dados de plataformas de e-commerce, lojas físicas, mídias sociais e pesquisas de mercado, mas esses conjuntos de dados podem estar isolados devido a inconsistências ou segregação de plataformas. Da mesma forma, empresas de transporte compartilhado como Uber e Lyft coletam grandes quantidades de dados em tempo real sobre tráfego, demanda de passageiros e localizações geográficas, mas dinâmicas competitivas impedem o compartilhamento ou integração desses conjuntos de dados.

Além desses problemas, os provedores de dados tradicionais enfrentam desafios relacionados à eficiência de custos e flexibilidade. Embora estejam abordando ativamente esses problemas, as tecnologias emergentes da Web3 fornecem novas perspectivas e possibilidades para enfrentá-los.

3. O Ecossistema de Dados da Web3

Desde o lançamento de soluções de armazenamento descentralizadas como o IPFS (InterPlanetary File System) em 2014, uma série de projetos emergentes têm como objetivo abordar as limitações dos ecossistemas de dados tradicionais. As soluções de dados descentralizadas evoluíram para um ecossistema interconectado e em camadas múltiplas abrangendo todas as etapas do ciclo de vida dos dados, incluindo geração de dados, armazenamento, troca, processamento e análise, verificação e segurança, bem como privacidade e propriedade.

  • Armazenamento de dados: O rápido desenvolvimento do Filecoin e do Arweave demonstra que o armazenamento descentralizado (DCS) está se tornando uma mudança de paradigma no campo do armazenamento. O DCS reduz os pontos únicos de falha por meio de uma arquitetura distribuída, ao mesmo tempo em que atrai participantes com eficiência de custo competitiva. Com o surgimento de aplicativos em larga escala, a capacidade de armazenamento do DCS cresceu exponencialmente (por exemplo, a capacidade total de armazenamento em rede do Filecoin alcançou 22 exabytes até 2024).
  • Processamento e Análise: plataformas de computação de dados descentralizadas como a Fluence melhoram o desempenho e a eficiência em tempo real do processamento de dados por meio da computação de borda, especialmente para cenários de aplicação em tempo real, como IoT e inferência de IA. Os projetos Web3 utilizam tecnologias como aprendizado federado, privacidade diferencial, ambientes de execução confiáveis e criptografia homomórfica totalmente para fornecer proteção de privacidade flexível na camada de computação.
  • Plataformas de Mercados/Intercâmbio de Dados: Para facilitar a valoração e circulação de dados, o Ocean Protocol utiliza mecanismos de tokenização e DEX para criar canais eficientes e abertos de troca de dados. Por exemplo, colaborou com a Daimler (empresa-mãe da Mercedes-Benz) para desenvolver mercados de troca de dados para gestão da cadeia de suprimentos. Por outro lado, o Streamr desenvolveu uma rede de fluxo de dados baseada em assinatura sem permissão, adaptada para IoT e cenários de análise em tempo real, apresentando um potencial excepcional em projetos de transporte e logística (por exemplo, colaborando com o projeto de cidade inteligente da Finlândia).

À medida que a troca e utilização de dados aumentam, garantir autenticidade, credibilidade e privacidade se tornou crítico. Isso impulsiona o ecossistema Web3 a inovar em verificação de dados e proteção de privacidade, levando a soluções inovadoras.

3.1 Inovações em Verificação de Dados e Proteção de Privacidade

Muitas tecnologias Web3 e projetos nativos se concentram em abordar questões de autenticidade de dados e proteção de privacidade. Além da adoção generalizada de tecnologias como Zero-Knowledge Proofs (ZK) e Multi-Party Computation (MPC), o TLS Notary surgiu como um novo método de verificação digno de nota.

Introdução ao TLS Notary

O protocolo de segurança de camada de transporte (TLS) é um protocolo de criptografia amplamente utilizado para comunicações de rede. Seu objetivo principal é garantir a segurança, integridade e confidencialidade da transmissão de dados entre um cliente e um servidor. O TLS é um padrão comum de criptografia em comunicações de rede modernas, aplicado em cenários como HTTPS, e-mail e mensagens instantâneas.

(Princípios de Criptografia TLS, Fonte: TechTarget)

Quando o TLS Notary foi introduzido pela primeira vez há uma década, seu objetivo era verificar a autenticidade das sessões TLS, introduzindo um "notário" de terceiros fora do cliente (provador) e do servidor.

Usando a tecnologia de divisão de chaves, a chave mestra de uma sessão TLS é dividida em duas partes, mantidas separadamente pelo cliente e pelo tabelião. Essa designação permite que o tabelião participe como uma terceira parte confiável no processo de verificação sem acessar o conteúdo real da comunicação. Esse mecanismo visa detectar ataques de intermediário, prevenir certificados fraudulentos e garantir que os dados de comunicação não sejam adulterados durante a transmissão. Também permite que terceiros confiáveis confirmem a legitimidade das comunicações enquanto protegem a privacidade.

Dessa forma, o TLS Notary oferece verificação segura de dados e equilibra efetivamente as necessidades de verificação com a proteção da privacidade.

Em 2022, o projeto TLS Notary foi reestruturado pelo laboratório de pesquisa Privacy and Scaling Exploration (PSE) da Ethereum Foundation. A nova versão do protocolo TLS Notary foi reescrita do zero na linguagem de programação Rust e integrada a protocolos criptográficos mais avançados, como o MPC. Essas atualizações permitem que os usuários comprovem a autenticidade dos dados recebidos de um servidor para uma terceira parte sem revelar o conteúdo dos dados. Ao manter suas capacidades de verificação principais, o novo TLS Notary melhora significativamente a proteção de privacidade, tornando-o mais adequado para os requisitos atuais e futuros de privacidade de dados.

3.2 Variantes e Extensões do TLS Notary

Nos últimos anos, a tecnologia de Notário TLS continuou a evoluir, resultando em várias derivações que aprimoram ainda mais suas capacidades de privacidade e verificação:

  • zkTLS: Uma versão com aprimoramento de privacidade do TLS Notary que integra a tecnologia ZKP, permitindo que os usuários gerem provas criptográficas dos dados da página da web sem expor nenhuma informação sensível. É particularmente adequado para cenários de comunicação que requerem alta proteção de privacidade.
  • 3P-TLS (Three-Party TLS): Este protocolo introduz três partes - cliente, servidor e auditor - permitindo que o auditor verifique a segurança das comunicações sem revelar o conteúdo. Este protocolo é útil em cenários que exigem transparência e privacidade, como auditorias de conformidade ou revisões de transações financeiras.

Projetos Web3 aproveitam essas tecnologias criptográficas para aprimorar a verificação de dados e a proteção de privacidade, lidando com problemas como monopólios de dados, silos e transmissão confiável. Os usuários podem verificar com segurança a propriedade de contas de mídia social, registros de compras para empréstimos financeiros, histórico de crédito bancário, histórico profissional e credenciais acadêmicas sem comprometer sua privacidade. Exemplos incluem:

  • Protocolo de Recuperação: Usa zkTLS para gerar provas de conhecimento zero do tráfego HTTPS, permitindo que os usuários importem com segurança atividade, reputação e dados de identidade de sites externos sem expor informações sensíveis.
  • zkPass: Combina a tecnologia 3P-TLS para permitir que os usuários verifiquem dados privados do mundo real de forma segura, com aplicações em KYC e serviços de crédito. Também é compatível com a rede HTTPS.
  • Rede de Opacidade: Construída em zkTLS, permite aos usuários comprovar com segurança suas atividades em plataformas como Uber, Spotify e Netflix sem acessar diretamente as APIs dessas plataformas, possibilitando a verificação de atividades entre plataformas.

(Projetos trabalhando em oráculos TLS, Fonte: Bastian Wetzel)

A verificação de dados no Web3 é um elo essencial no ecossistema de dados, com vastas perspectivas de aplicação. O florescimento desse ecossistema está direcionando a economia digital para um modelo mais aberto, dinâmico e centrado no usuário. No entanto, o desenvolvimento de tecnologias de verificação de autenticidade é apenas o começo da construção da infraestrutura de dados da próxima geração.

4. Redes de Dados Descentralizadas

Alguns projetos combinaram as tecnologias de verificação de dados mencionadas anteriormente com uma exploração adicional dos ecossistemas de dados a montante, como rastreabilidade de dados, coleta de dados distribuída e transmissão confiável. Abaixo, destacamos três projetos representativos - OpenLayer, Grass e Vana - que mostram potencial único na construção de infraestrutura de dados de próxima geração.

4.1 Camada Aberta

OpenLayer, um dos projetos do acelerador de startups a16z Crypto 2024 Spring, é a primeira camada de dados autênticos modular. Seu objetivo é fornecer uma solução modular inovadora para coordenar a coleta, verificação e transformação de dados, atendendo às necessidades de empresas tanto do Web2 quanto do Web3. OpenLayer tem recebido apoio de fundos renomados e investidores-anjo, incluindo Geometry Ventures e LongHash Ventures.

Camadas de dados tradicionais enfrentam vários desafios: falta de mecanismos de verificação confiáveis, dependência de arquiteturas centralizadas que limitam a acessibilidade, falta de interoperabilidade e fluxo entre diferentes sistemas, e ausência de mecanismos justos de distribuição de valor de dados.

Uma questão mais específica é a crescente escassez de dados de treinamento para a IA. Na internet pública, muitos sites agora adotam medidas anti-raspar para evitar a raspagem de dados em larga escala por empresas de IA. Nos dados proprietários privados, a situação é ainda mais complexa. Dados valiosos são frequentemente armazenados de forma protegida por privacidade devido à sua natureza sensível, faltando mecanismos de incentivo eficazes. Os usuários não podem monetizar com segurança seus dados privados e, portanto, relutam em compartilhar informações sensíveis.

Para resolver esses problemas, a OpenLayer combina tecnologias de verificação de dados para construir uma Camada de Dados Autênticos Modular. Através da descentralização e incentivos econômicos, ela coordena os processos de coleta, verificação e transformação de dados, fornecendo uma infraestrutura de dados mais segura, eficiente e flexível para empresas Web2 e Web3.

4.1.1 Componentes principais do design modular do OpenLayer

OpenLayer fornece uma plataforma modular que simplifica a coleta de dados, verificação confiável e processos de transformação.

a) OpenNodes

Os OpenNodes são os componentes principais responsáveis pela coleta descentralizada de dados no ecossistema OpenLayer. Através de aplicativos móveis, extensões de navegador e outros canais, os usuários podem coletar dados. Diferentes operadores/nós podem otimizar suas recompensas realizando tarefas mais adequadas às suas especificações de hardware.

OpenNodes suporta três principais tipos de dados:

  • Dados da internet publicamente disponíveis (por exemplo, dados financeiros, meteorológicos, esportivos e de mídias sociais)
  • Dados privados do usuário (por exemplo, histórico de visualização da Netflix, registros de pedidos da Amazon)
  • Dados auto-relatados de fontes confiáveis (por exemplo, dados verificados pelos proprietários ou hardware específico confiável).

Os desenvolvedores podem adicionar facilmente novos tipos de dados, especificar fontes de dados e definir requisitos e métodos de recuperação. Os usuários podem fornecer dados anônimos em troca de recompensas. Esse design permite que o sistema se expanda continuamente para atender às novas demandas de dados. As diversas fontes de dados tornam o OpenLayer adequado para vários cenários de aplicativos e reduzem o limite para o provisionamento de dados.

b) OpenValidators

Os OpenValidators lidam com a verificação dos dados coletados, permitindo que os consumidores de dados confirmem a precisão dos dados fornecidos pelos usuários em relação à sua fonte. Os métodos de verificação utilizam provas criptográficas, e os resultados podem ser validados retrospectivamente. Vários provedores podem oferecer serviços de verificação para o mesmo tipo de prova, permitindo que os desenvolvedores selecionem o provedor mais adequado para suas necessidades.

Nos casos de uso inicial, especialmente para dados públicos ou privados de APIs da internet, o OpenLayer utiliza o TLS Notary como solução de verificação. Ele exporta dados de qualquer aplicativo da web e verifica sua autenticidade sem comprometer a privacidade.

Além do TLS Notary, graças ao seu design modular, o sistema de verificação pode facilmente integrar outros métodos para atender a diversas necessidades de dados e verificação, incluindo:

  1. Conexões TLS atestadas: Utilizando Ambientes de Execução Confiável (TEEs) para estabelecer conexões TLS certificadas, garantindo a integridade e autenticidade dos dados durante a transmissão.
  2. Enclaves Seguros: Usando ambientes de isolamento seguro de nível de hardware (por exemplo, Intel SGX) para processar e verificar dados sensíveis, oferecendo proteção de dados de nível superior.
  3. Geradores de Prova ZK: Integrando Provas de Conhecimento Zero para verificar atributos de dados ou resultados de computação sem expor os dados subjacentes.

c) OpenConnect

OpenConnect é o módulo responsável pela transformação de dados e usabilidade dentro do ecossistema OpenLayer. Ele processa dados de várias fontes, garantindo interoperabilidade entre diferentes sistemas para atender a diversos requisitos de aplicação. Por exemplo:

  • Convertendo dados em um formato de Oráculo on-chain para uso direto por contratos inteligentes.
  • Pré-processamento de dados brutos não estruturados em dados estruturados para treinamento de IA.

Fornecendo anonimização de dados preservando a privacidade para contas privadas de usuários, enquanto aprimora a segurança durante o compartilhamento de dados para reduzir vazamentos e uso indevido.

Para atender às demandas de dados em tempo real de aplicativos de IA e blockchain, o OpenConnect suporta uma transformação eficiente de dados em tempo real.

Atualmente, por meio da integração com o EigenLayer, os operadores do OpenLayer AVS (Active Validation Service) monitoram as tarefas de solicitação de dados, coletam dados, verificam e reportam os resultados de volta ao sistema. As operadoras detêm ou retomam ativos na EigenLayer para fornecer garantias econômicas para suas ações. O comportamento malicioso resulta em corte de ativos. Como um dos primeiros projetos AVS na mainnet EigenLayer, o OpenLayer atraiu mais de 50 operadoras e US$ 4 bilhões em ativos remanescentes.

4.2 Grama

Grass, o projeto principal desenvolvido pela Wynd Network, é projetado para criar um rastreador de rede descentralizado e uma plataforma de dados de treinamento de IA. Até o final de 2023, o Grass completou uma rodada de financiamento inicial de US $ 3,5 milhões liderada pela Polychain Capital e Tribe Capital. Em setembro de 2024, ele garantiu financiamento da Série A, com US $ 5 milhões liderados pela HackVC e participação adicional da Polychain, Delphi, Lattice e Brevan Howard.

À medida que o treinamento de IA depende cada vez mais de fontes de dados diversas e expansivas, a Grass aborda essa necessidade criando uma rede de nós distribuídos de rastreadores da web. Essa rede utiliza infraestrutura física descentralizada e largura de banda ociosa do usuário para coletar e fornecer conjuntos de dados verificáveis para o treinamento de IA. Os nós roteiam solicitações da web através das conexões de internet do usuário, acessando sites públicos e compilando conjuntos de dados estruturados. A limpeza inicial e formatação dos dados são realizadas usando tecnologia de computação de borda, garantindo saídas de alta qualidade.

A Grama utiliza a arquitetura de Rollup de Dados da Camada 2 da Solana para melhorar a eficiência de processamento. Os validadores recebem, verificam e processam em lote transações da web de nós, gerando Provas de Conhecimento Zero (ZK) para confirmar a autenticidade dos dados. Os dados verificados são armazenados no Ledger de Dados da Grama (L2), com provas correspondentes vinculadas à blockchain Solana L1.

4.2.1 Componentes Principais de Grama

a) Nós de Grama:

Os usuários instalam o aplicativo Grass ou a extensão do navegador, permitindo que sua largura de banda ociosa alimente a rastreabilidade da web descentralizada. Os nós roteiam solicitações da web, acessam sites públicos e compilam conjuntos de dados estruturados. Usando a computação de borda, eles realizam a limpeza inicial de dados e formatação. Os usuários ganham tokens GRASS como recompensa com base em sua contribuição de largura de banda e no volume de dados fornecidos.

b) Roteadores:

Atuando como intermediários, os roteadores conectam os nós Grass aos validadores. Eles gerenciam a rede de nós e a largura de banda de retransmissão, e são incentivados com base na largura de banda verificada total que facilitam.

c) Validadores:

Validadores recebem e verificam transações web transmitidas por roteadores. Eles geram provas ZK para confirmar a validade dos dados, aproveitando conjuntos de chaves exclusivas para estabelecer conexões TLS seguras e suites de criptografia. Embora a Grass atualmente use validadores centralizados, há planos para fazer a transição para um comitê de validadores descentralizado.

d) Processadores ZK:

Esses processadores validam as provas de dados de sessão do nó e agrupam todas as provas de solicitação da web para envio à Camada 1 do Solana.

e) Registro de Dados Grass (Grass L2):

O Grass Data Ledger armazena conjuntos de dados abrangentes e os vincula às suas respectivas provas L1 na Solana, garantindo transparência e rastreabilidade.

f) Modelos de Incorporação de Borda:

Esses modelos transformam dados não estruturados da web em conjuntos de dados estruturados adequados para treinamento em IA.

Fonte: Grama

Comparação: Grama vs. OpenLayer

Grass e OpenLayer compartilham o compromisso de aproveitar redes distribuídas para fornecer às empresas acesso a dados abertos da internet e dados privados autenticados. Ambos utilizam mecanismos de incentivo para promover o compartilhamento de dados e a produção de conjuntos de dados de alta qualidade, mas suas arquiteturas técnicas e modelos de negócios diferem.

Arquitetura Técnica:

A Grass utiliza uma arquitetura de Camada de Dados Solana Layer 2 com validação centralizada, dependendo de um único validador. O OpenLayer, como um usuário inicial do AVS (Active Validation Service) da EigenLayer, emprega um mecanismo de validação descentralizado usando incentivos econômicos e penalidades de corte. Seu design modular enfatiza escalabilidade e flexibilidade nos serviços de verificação de dados.

Foco do Produto:

Ambos os projetos permitem que os usuários monetizem dados por meio de nós, mas seus casos de uso de negócios divergem:

  • Grass possui um modelo de mercado de dados que utiliza L2 para armazenar conjuntos de dados estruturados e de alta qualidade, verificáveis. Esses conjuntos de dados são adaptados para empresas de IA como recursos de treinamento.
  • OpenLayer foca na verificação de fluxo de dados em tempo real (VaaS) em vez de armazenamento dedicado de dados. Ele atende cenários dinâmicos como oráculos para RWA/DeFi/mercados de previsão, dados sociais em tempo real e aplicações de IA que requerem entrada instantânea de dados.

Grass tem como alvo principalmente empresas de inteligência artificial e cientistas de dados que necessitam de conjuntos de dados estruturados em grande escala, assim como instituições de pesquisa e empresas que necessitam de dados baseados na web. OpenLayer atende aos desenvolvedores Web3 que necessitam de fontes de dados off-chain, empresas de inteligência artificial que requerem fluxos verificáveis em tempo real e empresas que buscam estratégias inovadoras como a verificação do uso de produtos concorrentes.

Competição futura e sinergias

Embora ambos os projetos ocupem atualmente nichos distintos, suas funcionalidades podem convergir à medida que a indústria evolui:

  • A grama poderia se expandir para oferecer dados estruturados em tempo real.
  • OpenLayer pode desenvolver um livro-razão de dados dedicado para gerenciamento de conjuntos de dados.

Ambos os projetos também poderiam integrar a rotulagem de dados como um passo crítico para treinar conjuntos de dados. A Grass, com sua vasta rede de mais de 2,2 milhões de nós ativos, poderia implantar rapidamente serviços de Aprendizado por Reforço com Feedback Humano (RLHF) para otimizar modelos de IA. O OpenLayer, com sua expertise em verificação e processamento de dados em tempo real, poderia manter uma vantagem em credibilidade e qualidade de dados, especialmente para conjuntos de dados privados.

Apesar da sobreposição potencial, suas forças únicas e abordagens tecnológicas podem permitir que dominem diferentes nichos dentro do ecossistema de dados descentralizados.

(Source:IOSG, David)

4.3 Vana: Uma Rede de Pool de Dados Centrada no Usuário

Vana é uma rede de pool de dados centrada no usuário projetada para fornecer dados de alta qualidade para IA e aplicativos relacionados. Comparado ao OpenLayer e ao Grass, Vana adota uma abordagem tecnológica e de negócios distintas. Em setembro de 2024, Vana garantiu $5 milhões em financiamento liderado pela Coinbase Ventures, seguindo uma rodada da Série A de $18 milhões em que a Paradigm atuou como investidor líder, com a participação da Polychain e Casey Caruso.

Lançada originalmente em 2018 como um projeto de pesquisa do MIT, a Vana é uma blockchain de Camada 1 dedicada aos dados privados do usuário. Suas inovações em propriedade de dados e distribuição de valor permitem que os usuários lucrem com modelos de IA treinados em seus dados. A Vana alcança isso por meio de Pools de Liquidez de Dados (DLPs) confiáveis, privados e atribuíveis e um mecanismo inovador de Prova de Contribuição que facilita o fluxo e a monetização de dados privados.

4.3.1. Pools de Liquidez de Dados (DLPs)

Vana apresenta um conceito único de Pools de Liquidez de Dados (DLPs), que estão no cerne da rede Vana. Cada DLP é uma rede independente ponto-a-ponto que agrega tipos específicos de ativos de dados. Os usuários podem fazer upload de seus dados privados, como registros de compras, hábitos de navegação e atividade nas redes sociais, em DLPs designados e decidir se autorizam o uso por terceiros específicos.

Os dados dentro dessas pools passam por desidentificação para proteger a privacidade do usuário, ao mesmo tempo em que permanecem utilizáveis para aplicações comerciais, como treinamento de modelos de IA e pesquisa de mercado. Os usuários que contribuem com dados para um DLP são recompensados com tokens DLP correspondentes. Esses tokens representam a contribuição do usuário para a pool, concedem direitos de governança e dão direito ao usuário a uma parcela dos lucros futuros.

Diferentemente da venda única tradicional de dados, Vana permite que os dados participem continuamente do ciclo econômico, possibilitando que os usuários recebam recompensas contínuas com rastreamento transparente e visualizado do uso.

4.3.2. Mecanismo de Prova de Contribuição

O mecanismo de Prova de Contribuição (PoC) é o alicerce da abordagem da Vana para garantir a qualidade dos dados. Cada DLP pode definir uma função PoC única adaptada às suas características, verificando a autenticidade e integridade dos dados enviados e avaliando sua contribuição para melhorar o desempenho do modelo de IA. Esse mecanismo quantifica as contribuições do usuário, registrando-as para alocar recompensas. Semelhante ao conceito de "Proof of Work" em criptomoedas, o PoC recompensa os usuários com base na qualidade, quantidade e frequência de uso dos dados. Contratos inteligentes automatizam esse processo, garantindo que os contribuidores sejam compensados de forma justa e transparente.

Arquitetura Técnica de Vana

  1. Camada de liquidez de dados:

Essa camada central permite a contribuição, verificação e registro de dados nos DLPs, transformando dados em ativos digitais transferíveis on-chain. Os criadores de DLP implantam contratos inteligentes para definir propósitos, métodos de verificação e parâmetros de contribuição. Os contribuintes de dados enviam dados para validação, e o módulo PoC avalia a qualidade dos dados e atribui direitos de governança e recompensas.

  1. Camada de portabilidade de dados:

Servindo como a camada de aplicação da Vana, esta plataforma facilita a colaboração entre os contribuintes de dados e os desenvolvedores. Ele fornece infraestrutura para a construção de modelos distribuídos de treinamento de IA e AI DApps usando a liquidez em DLPs.

  1. Conectoma:

Um livro-razão descentralizado que sustenta o ecossistema Vana, o Connectome atua como um mapa de fluxo de dados em tempo real. Ele registra todas as transações de dados em tempo real usando consenso de Prova de Participação, garantindo a transferência eficiente de tokens DLP e permitindo o acesso cruzado de dados DLP. Totalmente compatível com EVM, ele permite interoperabilidade com outras redes, protocolos e aplicativos DeFi.

(Fonte: Vana)

Vana fornece uma abordagem inovadora, focando na liquidez e capacitação dos dados do usuário. Esse modelo de troca de dados descentralizada não apenas suporta treinamento de IA e mercados de dados, mas também permite compartilhamento e propriedade de dados entre plataformas de forma transparente no ecossistema Web3. No final, promove uma internet aberta onde os usuários podem possuir e gerenciar seus dados e os produtos inteligentes criados a partir deles.

5. A Proposta de Valor das Redes de Dados Descentralizadas

Em 2006, o cientista de dados Clive Humby afirmou famosamente: 'Os dados são o novo petróleo'. Nas últimas duas décadas, testemunhamos a rápida evolução de tecnologias que 'refinam' esse recurso, como análise de big data e aprendizado de máquina, que desbloquearam um valor sem precedentes dos dados. De acordo com a IDC, até 2025, a esfera global de dados se expandirá para 163 ZB, com a maioria vindo de indivíduos. À medida que IoT, dispositivos vestíveis, IA e serviços personalizados se tornam mais difundidos, grande parte dos dados necessários para uso comercial terá origem em indivíduos.

Desafios das soluções tradicionais e inovações Web3

Soluções de dados Web3 superam as limitações da infraestrutura tradicional, aproveitando redes de nós distribuídos. Essas redes possibilitam uma coleta de dados mais ampla e eficiente, melhorando a acessibilidade e verificabilidade em tempo real de conjuntos de dados específicos. As tecnologias Web3 garantem a autenticidade e integridade dos dados, ao mesmo tempo que protegem a privacidade do usuário, promovendo um modelo de utilização de dados mais justo. Essa arquitetura descentralizada democratiza o acesso aos dados e capacita os usuários a compartilhar os benefícios econômicos da economia de dados.

Tanto o OpenLayer quanto o Grass contam com modelos de nós de usuário para aprimorar processos específicos de coleta de dados, enquanto o Vana monetiza dados privados de usuários. Essas abordagens não apenas melhoram a eficiência, mas também permitem que usuários comuns participem do valor criado pela economia de dados, criando um cenário de ganha-ganha para usuários e desenvolvedores.

Através da tokenomics, as soluções de dados Web3 redesenham os modelos de incentivo, estabelecendo um mecanismo de distribuição de valor mais justo. Esses sistemas atraem uma participação significativa dos usuários, recursos de hardware e investimentos de capital, otimizando a operação de toda a rede de dados.

As soluções Web3 oferecem modularidade e escalabilidade, permitindo iteração tecnológica e expansão do ecossistema. Por exemplo: o design modular da OpenLayer fornece flexibilidade para avanços futuros; a arquitetura distribuída da Grass otimiza o treinamento de modelos de IA fornecendo conjuntos de dados diversos e de alta qualidade.

Desde a geração, armazenamento e verificação de dados até a troca e análise, as soluções impulsionadas pela Web3 abordam as deficiências das infraestruturas tradicionais. Ao permitir que os usuários monetizem seus dados, essas soluções transformam fundamentalmente a economia de dados.

À medida que as tecnologias evoluem e os cenários de aplicação se expandem, as camadas de dados descentralizadas estão prontas para se tornarem um pilar da infraestrutura da próxima geração. Elas irão suportar uma ampla gama de indústrias orientadas por dados, ao mesmo tempo em que capacitam os usuários a assumirem o controle de seus dados e seu potencial econômico.

Aviso Legal:

  1. Este artigo é reproduzido de [IOSG Ventures]. Todos os direitos autorais pertencem ao autor original [IOSG Ventures]. Se houver objeções a esta reprodução, entre em contato com o Portão Aprenderequipe, e eles vão lidar com isso prontamente.
  2. Aviso de responsabilidade: As opiniões expressas neste artigo são exclusivamente do autor e não constituem um conselho de investimento.
  3. A equipe do Gate Learn traduziu o artigo para outras línguas. É proibido copiar, distribuir ou plagiar os artigos traduzidos, a menos que seja mencionado.

Camada de Dados Descentralizada: A Nova Infraestrutura para a Era da IA #247

intermediário11/26/2024, 4:28:16 AM
Anteriormente, discutimos como a AI e a Web3 podem se complementar em várias indústrias verticais, como redes computacionais, plataformas intermediárias e aplicativos para consumidores. Ao focar nos recursos de dados como um campo vertical, os projetos Web emergentes oferecem novas possibilidades para a aquisição, compartilhamento e utilização de dados.

TL/DR

Anteriormente discutimos como a IA e a Web3 podem se complementar em setores verticais como redes computacionais, plataformas intermediárias e aplicações de consumidores. Ao focar nos recursos de dados como um campo vertical, os novos projetos da Web oferecem novas possibilidades para a aquisição, compartilhamento e utilização de dados.

  • Os provedores de dados tradicionais têm dificuldade em atender à demanda por dados de alta qualidade, em tempo real e verificáveis na IA e em outras indústrias orientadas por dados, especialmente em termos de transparência, controle do usuário e proteção de privacidade.
  • As soluções Web3 estão remodelando o ecossistema de dados. Tecnologias como MPC (Computação Multi-Partidária), provas de conhecimento zero e TLS Notary garantem autenticidade e privacidade dos dados durante o fluxo entre múltiplas fontes, enquanto o armazenamento distribuído e a computação de borda oferecem maior flexibilidade e eficiência no processamento de dados em tempo real.
  • Redes de dados descentralizadas como infraestrutura emergente deram origem a vários projetos representativos, como OpenLayer (uma camada de dados real modular), Grass (alavancando a largura de banda ociosa do usuário e redes descentralizadas de nós rastreadores) e Vana (uma rede de soberania de dados do usuário), que abrem novas perspectivas para campos como treinamento de IA e aplicações por meio de diferentes caminhos tecnológicos.
  • Ao aproveitar a capacidade de crowdsourcing, camadas de abstração sem confiança e mecanismos de incentivo baseados em tokens, a infraestrutura de dados descentralizada pode oferecer soluções mais privadas, seguras, eficientes e econômicas em comparação com os gigantes da Web2. Também capacita os usuários com controle sobre seus dados e recursos relacionados, construindo um ecossistema digital mais aberto, seguro e interconectado.

1. O aumento na demanda por dados

Os dados se tornaram o principal impulsionador da inovação e da tomada de decisões em todas as indústrias. O UBS prevê que o volume global de dados aumentará dez vezes de 2020 a 2030, atingindo 660 ZB. Até 2025, espera-se que cada indivíduo global gere 463 EB (exabytes, 1 EB = 1 bilhão de GB) de dados diariamente. O mercado de Data-as-a-Service (DaaS) está se expandindo rapidamente. De acordo com a Grand View Research, o mercado global de DaaS foi avaliado em US$ 14,36 bilhões em 2023 e espera-se que cresça a uma taxa de crescimento anual composta (CAGR) de 28,1%, atingindo US$ 76,8 bilhões até 2030.

O treinamento do modelo de IA depende muito de conjuntos de dados grandes para identificar padrões e ajustar parâmetros. Após o treinamento, também são necessários conjuntos de dados para testar o desempenho e as capacidades de generalização dos modelos. Além disso, agentes de IA, como formas emergentes de aplicação inteligente, requerem fontes de dados em tempo real e confiáveis para garantir tomadas de decisão precisas e execução de tarefas.

(Fonte: Leewayhertz)

A demanda por análise de negócios também está se tornando mais diversificada e generalizada, servindo como uma ferramenta fundamental para impulsionar a inovação empresarial. Por exemplo, plataformas de mídia social e empresas de pesquisa de mercado precisam de dados confiáveis sobre o comportamento do usuário para formular estratégias e analisar tendências, integrando dados diversos de várias plataformas sociais para construir uma imagem mais abrangente.

Para o ecossistema Web3, dados confiáveis e autênticos também são necessários on-chain para apoiar novos produtos financeiros. À medida que mais ativos inovadores são tokenizados, interfaces de dados flexíveis e confiáveis são necessárias para apoiar o desenvolvimento de produtos e gestão de riscos, permitindo que contratos inteligentes sejam executados com base em dados verificáveis em tempo real.

Além disso, os casos de uso em pesquisa científica, IoT e outras áreas destacam a demanda crescente e explosiva por dados diversos, autênticos e em tempo real. Os sistemas tradicionais podem ter dificuldade em lidar com o volume de dados em rápido crescimento e as demandas em constante mudança.

2. Limitações e Desafios dos Ecossistemas de Dados Tradicionais

Um ecossistema de dados típico inclui coleta, armazenamento, processamento, análise e aplicação de dados. Modelos centralizados são caracterizados pela coleta e armazenamento centralizados de dados, gerenciados por uma equipe central de TI com controle rígido de acesso. Por exemplo, o ecossistema de dados do Google abrange várias fontes de dados como mecanismos de busca, Gmail e o sistema operacional Android. Essas plataformas coletam dados do usuário, armazenam em centros de dados globalmente distribuídos e processam usando algoritmos para apoiar o desenvolvimento e a otimização de vários produtos e serviços.

Nos mercados financeiros, a LSEG (anteriormente Refinitiv) reúne dados em tempo real e históricos de bolsas globais, bancos e grandes instituições financeiras, enquanto utiliza sua rede proprietária de Notícias Reuters para coletar notícias relacionadas ao mercado. Eles processam essas informações usando algoritmos e modelos proprietários para gerar análises e produtos de avaliação de risco como serviços de valor agregado.

(Fonte: kdnuggets.com)

Embora a arquitetura de dados tradicional seja eficaz em serviços profissionais, as limitações dos modelos centralizados estão se tornando cada vez mais evidentes, especialmente na cobertura de fontes de dados emergentes, transparência e proteção da privacidade do usuário. Abaixo estão algumas questões-chave:

  • Cobertura de dados insuficiente: Os provedores de dados tradicionais têm dificuldade em capturar e analisar rapidamente fontes de dados emergentes, como o sentimento das mídias sociais e os dados de dispositivos de IoT. Sistemas centralizados têm dificuldade em adquirir e integrar eficientemente dados "de cauda longa" de inúmeras fontes pequenas ou não convencionais.

Por exemplo, o evento GameStop de 2021 revelou as limitações dos provedores tradicionais de dados financeiros na análise do sentimento das mídias sociais. O sentimento do investidor em plataformas como o Reddit influenciou rapidamente as tendências de mercado, mas terminais de dados como Bloomberg e Reuters falharam em capturar essas dinâmicas a tempo, levando a previsões de mercado atrasadas.

  • Acesso limitado aos dados: O monopólio limita o acesso. Muitos provedores tradicionais abrem partes de seus dados por meio de APIs/serviços em nuvem, mas taxas de acesso elevadas e processos de autorização complexos aumentam a dificuldade da integração de dados. Desenvolvedores on-chain têm dificuldade em acessar rapidamente dados off-chain confiáveis, com dados de alta qualidade monopolizados por alguns gigantes a um custo alto.
  • Questões de Transparência e Credibilidade dos Dados: Muitos provedores de dados centralizados carecem de transparência em seus métodos de coleta e processamento de dados. Mecanismos eficazes para verificar a autenticidade e completude de dados em larga escala também são escassos. A verificação de dados em tempo real em grande escala continua sendo complexa, e a natureza centralizada aumenta o risco de adulteração ou manipulação de dados.
  • Proteção da privacidade e propriedade dos dados: As grandes empresas de tecnologia comercializaram extensivamente os dados do usuário. Os usuários, como os criadores dos dados pessoais, raramente obtêm o devido valor deles. Muitas vezes, eles não conseguem entender como seus dados são coletados, processados ou usados, nem podem decidir sobre o escopo e a forma de seu uso. A supercoleta e o uso indevido também resultam em graves riscos de privacidade. Por exemplo, o escândalo da Cambridge Analytica do Facebook expôs falhas significativas na transparência e proteção da privacidade nos ecossistemas tradicionais de dados.
  • Silos de dados: Dados em tempo real de diferentes fontes e formatos são desafiadores de integrar rapidamente, dificultando a análise abrangente. Grande parte desses dados permanece bloqueada dentro das organizações, limitando o compartilhamento e a inovação entre indústrias e organizações. Esse efeito de "silo de dados" obstrui a integração e análise de dados entre diferentes domínios. Por exemplo, na indústria de consumo, as marcas precisam integrar dados de plataformas de e-commerce, lojas físicas, mídias sociais e pesquisas de mercado, mas esses conjuntos de dados podem estar isolados devido a inconsistências ou segregação de plataformas. Da mesma forma, empresas de transporte compartilhado como Uber e Lyft coletam grandes quantidades de dados em tempo real sobre tráfego, demanda de passageiros e localizações geográficas, mas dinâmicas competitivas impedem o compartilhamento ou integração desses conjuntos de dados.

Além desses problemas, os provedores de dados tradicionais enfrentam desafios relacionados à eficiência de custos e flexibilidade. Embora estejam abordando ativamente esses problemas, as tecnologias emergentes da Web3 fornecem novas perspectivas e possibilidades para enfrentá-los.

3. O Ecossistema de Dados da Web3

Desde o lançamento de soluções de armazenamento descentralizadas como o IPFS (InterPlanetary File System) em 2014, uma série de projetos emergentes têm como objetivo abordar as limitações dos ecossistemas de dados tradicionais. As soluções de dados descentralizadas evoluíram para um ecossistema interconectado e em camadas múltiplas abrangendo todas as etapas do ciclo de vida dos dados, incluindo geração de dados, armazenamento, troca, processamento e análise, verificação e segurança, bem como privacidade e propriedade.

  • Armazenamento de dados: O rápido desenvolvimento do Filecoin e do Arweave demonstra que o armazenamento descentralizado (DCS) está se tornando uma mudança de paradigma no campo do armazenamento. O DCS reduz os pontos únicos de falha por meio de uma arquitetura distribuída, ao mesmo tempo em que atrai participantes com eficiência de custo competitiva. Com o surgimento de aplicativos em larga escala, a capacidade de armazenamento do DCS cresceu exponencialmente (por exemplo, a capacidade total de armazenamento em rede do Filecoin alcançou 22 exabytes até 2024).
  • Processamento e Análise: plataformas de computação de dados descentralizadas como a Fluence melhoram o desempenho e a eficiência em tempo real do processamento de dados por meio da computação de borda, especialmente para cenários de aplicação em tempo real, como IoT e inferência de IA. Os projetos Web3 utilizam tecnologias como aprendizado federado, privacidade diferencial, ambientes de execução confiáveis e criptografia homomórfica totalmente para fornecer proteção de privacidade flexível na camada de computação.
  • Plataformas de Mercados/Intercâmbio de Dados: Para facilitar a valoração e circulação de dados, o Ocean Protocol utiliza mecanismos de tokenização e DEX para criar canais eficientes e abertos de troca de dados. Por exemplo, colaborou com a Daimler (empresa-mãe da Mercedes-Benz) para desenvolver mercados de troca de dados para gestão da cadeia de suprimentos. Por outro lado, o Streamr desenvolveu uma rede de fluxo de dados baseada em assinatura sem permissão, adaptada para IoT e cenários de análise em tempo real, apresentando um potencial excepcional em projetos de transporte e logística (por exemplo, colaborando com o projeto de cidade inteligente da Finlândia).

À medida que a troca e utilização de dados aumentam, garantir autenticidade, credibilidade e privacidade se tornou crítico. Isso impulsiona o ecossistema Web3 a inovar em verificação de dados e proteção de privacidade, levando a soluções inovadoras.

3.1 Inovações em Verificação de Dados e Proteção de Privacidade

Muitas tecnologias Web3 e projetos nativos se concentram em abordar questões de autenticidade de dados e proteção de privacidade. Além da adoção generalizada de tecnologias como Zero-Knowledge Proofs (ZK) e Multi-Party Computation (MPC), o TLS Notary surgiu como um novo método de verificação digno de nota.

Introdução ao TLS Notary

O protocolo de segurança de camada de transporte (TLS) é um protocolo de criptografia amplamente utilizado para comunicações de rede. Seu objetivo principal é garantir a segurança, integridade e confidencialidade da transmissão de dados entre um cliente e um servidor. O TLS é um padrão comum de criptografia em comunicações de rede modernas, aplicado em cenários como HTTPS, e-mail e mensagens instantâneas.

(Princípios de Criptografia TLS, Fonte: TechTarget)

Quando o TLS Notary foi introduzido pela primeira vez há uma década, seu objetivo era verificar a autenticidade das sessões TLS, introduzindo um "notário" de terceiros fora do cliente (provador) e do servidor.

Usando a tecnologia de divisão de chaves, a chave mestra de uma sessão TLS é dividida em duas partes, mantidas separadamente pelo cliente e pelo tabelião. Essa designação permite que o tabelião participe como uma terceira parte confiável no processo de verificação sem acessar o conteúdo real da comunicação. Esse mecanismo visa detectar ataques de intermediário, prevenir certificados fraudulentos e garantir que os dados de comunicação não sejam adulterados durante a transmissão. Também permite que terceiros confiáveis confirmem a legitimidade das comunicações enquanto protegem a privacidade.

Dessa forma, o TLS Notary oferece verificação segura de dados e equilibra efetivamente as necessidades de verificação com a proteção da privacidade.

Em 2022, o projeto TLS Notary foi reestruturado pelo laboratório de pesquisa Privacy and Scaling Exploration (PSE) da Ethereum Foundation. A nova versão do protocolo TLS Notary foi reescrita do zero na linguagem de programação Rust e integrada a protocolos criptográficos mais avançados, como o MPC. Essas atualizações permitem que os usuários comprovem a autenticidade dos dados recebidos de um servidor para uma terceira parte sem revelar o conteúdo dos dados. Ao manter suas capacidades de verificação principais, o novo TLS Notary melhora significativamente a proteção de privacidade, tornando-o mais adequado para os requisitos atuais e futuros de privacidade de dados.

3.2 Variantes e Extensões do TLS Notary

Nos últimos anos, a tecnologia de Notário TLS continuou a evoluir, resultando em várias derivações que aprimoram ainda mais suas capacidades de privacidade e verificação:

  • zkTLS: Uma versão com aprimoramento de privacidade do TLS Notary que integra a tecnologia ZKP, permitindo que os usuários gerem provas criptográficas dos dados da página da web sem expor nenhuma informação sensível. É particularmente adequado para cenários de comunicação que requerem alta proteção de privacidade.
  • 3P-TLS (Three-Party TLS): Este protocolo introduz três partes - cliente, servidor e auditor - permitindo que o auditor verifique a segurança das comunicações sem revelar o conteúdo. Este protocolo é útil em cenários que exigem transparência e privacidade, como auditorias de conformidade ou revisões de transações financeiras.

Projetos Web3 aproveitam essas tecnologias criptográficas para aprimorar a verificação de dados e a proteção de privacidade, lidando com problemas como monopólios de dados, silos e transmissão confiável. Os usuários podem verificar com segurança a propriedade de contas de mídia social, registros de compras para empréstimos financeiros, histórico de crédito bancário, histórico profissional e credenciais acadêmicas sem comprometer sua privacidade. Exemplos incluem:

  • Protocolo de Recuperação: Usa zkTLS para gerar provas de conhecimento zero do tráfego HTTPS, permitindo que os usuários importem com segurança atividade, reputação e dados de identidade de sites externos sem expor informações sensíveis.
  • zkPass: Combina a tecnologia 3P-TLS para permitir que os usuários verifiquem dados privados do mundo real de forma segura, com aplicações em KYC e serviços de crédito. Também é compatível com a rede HTTPS.
  • Rede de Opacidade: Construída em zkTLS, permite aos usuários comprovar com segurança suas atividades em plataformas como Uber, Spotify e Netflix sem acessar diretamente as APIs dessas plataformas, possibilitando a verificação de atividades entre plataformas.

(Projetos trabalhando em oráculos TLS, Fonte: Bastian Wetzel)

A verificação de dados no Web3 é um elo essencial no ecossistema de dados, com vastas perspectivas de aplicação. O florescimento desse ecossistema está direcionando a economia digital para um modelo mais aberto, dinâmico e centrado no usuário. No entanto, o desenvolvimento de tecnologias de verificação de autenticidade é apenas o começo da construção da infraestrutura de dados da próxima geração.

4. Redes de Dados Descentralizadas

Alguns projetos combinaram as tecnologias de verificação de dados mencionadas anteriormente com uma exploração adicional dos ecossistemas de dados a montante, como rastreabilidade de dados, coleta de dados distribuída e transmissão confiável. Abaixo, destacamos três projetos representativos - OpenLayer, Grass e Vana - que mostram potencial único na construção de infraestrutura de dados de próxima geração.

4.1 Camada Aberta

OpenLayer, um dos projetos do acelerador de startups a16z Crypto 2024 Spring, é a primeira camada de dados autênticos modular. Seu objetivo é fornecer uma solução modular inovadora para coordenar a coleta, verificação e transformação de dados, atendendo às necessidades de empresas tanto do Web2 quanto do Web3. OpenLayer tem recebido apoio de fundos renomados e investidores-anjo, incluindo Geometry Ventures e LongHash Ventures.

Camadas de dados tradicionais enfrentam vários desafios: falta de mecanismos de verificação confiáveis, dependência de arquiteturas centralizadas que limitam a acessibilidade, falta de interoperabilidade e fluxo entre diferentes sistemas, e ausência de mecanismos justos de distribuição de valor de dados.

Uma questão mais específica é a crescente escassez de dados de treinamento para a IA. Na internet pública, muitos sites agora adotam medidas anti-raspar para evitar a raspagem de dados em larga escala por empresas de IA. Nos dados proprietários privados, a situação é ainda mais complexa. Dados valiosos são frequentemente armazenados de forma protegida por privacidade devido à sua natureza sensível, faltando mecanismos de incentivo eficazes. Os usuários não podem monetizar com segurança seus dados privados e, portanto, relutam em compartilhar informações sensíveis.

Para resolver esses problemas, a OpenLayer combina tecnologias de verificação de dados para construir uma Camada de Dados Autênticos Modular. Através da descentralização e incentivos econômicos, ela coordena os processos de coleta, verificação e transformação de dados, fornecendo uma infraestrutura de dados mais segura, eficiente e flexível para empresas Web2 e Web3.

4.1.1 Componentes principais do design modular do OpenLayer

OpenLayer fornece uma plataforma modular que simplifica a coleta de dados, verificação confiável e processos de transformação.

a) OpenNodes

Os OpenNodes são os componentes principais responsáveis pela coleta descentralizada de dados no ecossistema OpenLayer. Através de aplicativos móveis, extensões de navegador e outros canais, os usuários podem coletar dados. Diferentes operadores/nós podem otimizar suas recompensas realizando tarefas mais adequadas às suas especificações de hardware.

OpenNodes suporta três principais tipos de dados:

  • Dados da internet publicamente disponíveis (por exemplo, dados financeiros, meteorológicos, esportivos e de mídias sociais)
  • Dados privados do usuário (por exemplo, histórico de visualização da Netflix, registros de pedidos da Amazon)
  • Dados auto-relatados de fontes confiáveis (por exemplo, dados verificados pelos proprietários ou hardware específico confiável).

Os desenvolvedores podem adicionar facilmente novos tipos de dados, especificar fontes de dados e definir requisitos e métodos de recuperação. Os usuários podem fornecer dados anônimos em troca de recompensas. Esse design permite que o sistema se expanda continuamente para atender às novas demandas de dados. As diversas fontes de dados tornam o OpenLayer adequado para vários cenários de aplicativos e reduzem o limite para o provisionamento de dados.

b) OpenValidators

Os OpenValidators lidam com a verificação dos dados coletados, permitindo que os consumidores de dados confirmem a precisão dos dados fornecidos pelos usuários em relação à sua fonte. Os métodos de verificação utilizam provas criptográficas, e os resultados podem ser validados retrospectivamente. Vários provedores podem oferecer serviços de verificação para o mesmo tipo de prova, permitindo que os desenvolvedores selecionem o provedor mais adequado para suas necessidades.

Nos casos de uso inicial, especialmente para dados públicos ou privados de APIs da internet, o OpenLayer utiliza o TLS Notary como solução de verificação. Ele exporta dados de qualquer aplicativo da web e verifica sua autenticidade sem comprometer a privacidade.

Além do TLS Notary, graças ao seu design modular, o sistema de verificação pode facilmente integrar outros métodos para atender a diversas necessidades de dados e verificação, incluindo:

  1. Conexões TLS atestadas: Utilizando Ambientes de Execução Confiável (TEEs) para estabelecer conexões TLS certificadas, garantindo a integridade e autenticidade dos dados durante a transmissão.
  2. Enclaves Seguros: Usando ambientes de isolamento seguro de nível de hardware (por exemplo, Intel SGX) para processar e verificar dados sensíveis, oferecendo proteção de dados de nível superior.
  3. Geradores de Prova ZK: Integrando Provas de Conhecimento Zero para verificar atributos de dados ou resultados de computação sem expor os dados subjacentes.

c) OpenConnect

OpenConnect é o módulo responsável pela transformação de dados e usabilidade dentro do ecossistema OpenLayer. Ele processa dados de várias fontes, garantindo interoperabilidade entre diferentes sistemas para atender a diversos requisitos de aplicação. Por exemplo:

  • Convertendo dados em um formato de Oráculo on-chain para uso direto por contratos inteligentes.
  • Pré-processamento de dados brutos não estruturados em dados estruturados para treinamento de IA.

Fornecendo anonimização de dados preservando a privacidade para contas privadas de usuários, enquanto aprimora a segurança durante o compartilhamento de dados para reduzir vazamentos e uso indevido.

Para atender às demandas de dados em tempo real de aplicativos de IA e blockchain, o OpenConnect suporta uma transformação eficiente de dados em tempo real.

Atualmente, por meio da integração com o EigenLayer, os operadores do OpenLayer AVS (Active Validation Service) monitoram as tarefas de solicitação de dados, coletam dados, verificam e reportam os resultados de volta ao sistema. As operadoras detêm ou retomam ativos na EigenLayer para fornecer garantias econômicas para suas ações. O comportamento malicioso resulta em corte de ativos. Como um dos primeiros projetos AVS na mainnet EigenLayer, o OpenLayer atraiu mais de 50 operadoras e US$ 4 bilhões em ativos remanescentes.

4.2 Grama

Grass, o projeto principal desenvolvido pela Wynd Network, é projetado para criar um rastreador de rede descentralizado e uma plataforma de dados de treinamento de IA. Até o final de 2023, o Grass completou uma rodada de financiamento inicial de US $ 3,5 milhões liderada pela Polychain Capital e Tribe Capital. Em setembro de 2024, ele garantiu financiamento da Série A, com US $ 5 milhões liderados pela HackVC e participação adicional da Polychain, Delphi, Lattice e Brevan Howard.

À medida que o treinamento de IA depende cada vez mais de fontes de dados diversas e expansivas, a Grass aborda essa necessidade criando uma rede de nós distribuídos de rastreadores da web. Essa rede utiliza infraestrutura física descentralizada e largura de banda ociosa do usuário para coletar e fornecer conjuntos de dados verificáveis para o treinamento de IA. Os nós roteiam solicitações da web através das conexões de internet do usuário, acessando sites públicos e compilando conjuntos de dados estruturados. A limpeza inicial e formatação dos dados são realizadas usando tecnologia de computação de borda, garantindo saídas de alta qualidade.

A Grama utiliza a arquitetura de Rollup de Dados da Camada 2 da Solana para melhorar a eficiência de processamento. Os validadores recebem, verificam e processam em lote transações da web de nós, gerando Provas de Conhecimento Zero (ZK) para confirmar a autenticidade dos dados. Os dados verificados são armazenados no Ledger de Dados da Grama (L2), com provas correspondentes vinculadas à blockchain Solana L1.

4.2.1 Componentes Principais de Grama

a) Nós de Grama:

Os usuários instalam o aplicativo Grass ou a extensão do navegador, permitindo que sua largura de banda ociosa alimente a rastreabilidade da web descentralizada. Os nós roteiam solicitações da web, acessam sites públicos e compilam conjuntos de dados estruturados. Usando a computação de borda, eles realizam a limpeza inicial de dados e formatação. Os usuários ganham tokens GRASS como recompensa com base em sua contribuição de largura de banda e no volume de dados fornecidos.

b) Roteadores:

Atuando como intermediários, os roteadores conectam os nós Grass aos validadores. Eles gerenciam a rede de nós e a largura de banda de retransmissão, e são incentivados com base na largura de banda verificada total que facilitam.

c) Validadores:

Validadores recebem e verificam transações web transmitidas por roteadores. Eles geram provas ZK para confirmar a validade dos dados, aproveitando conjuntos de chaves exclusivas para estabelecer conexões TLS seguras e suites de criptografia. Embora a Grass atualmente use validadores centralizados, há planos para fazer a transição para um comitê de validadores descentralizado.

d) Processadores ZK:

Esses processadores validam as provas de dados de sessão do nó e agrupam todas as provas de solicitação da web para envio à Camada 1 do Solana.

e) Registro de Dados Grass (Grass L2):

O Grass Data Ledger armazena conjuntos de dados abrangentes e os vincula às suas respectivas provas L1 na Solana, garantindo transparência e rastreabilidade.

f) Modelos de Incorporação de Borda:

Esses modelos transformam dados não estruturados da web em conjuntos de dados estruturados adequados para treinamento em IA.

Fonte: Grama

Comparação: Grama vs. OpenLayer

Grass e OpenLayer compartilham o compromisso de aproveitar redes distribuídas para fornecer às empresas acesso a dados abertos da internet e dados privados autenticados. Ambos utilizam mecanismos de incentivo para promover o compartilhamento de dados e a produção de conjuntos de dados de alta qualidade, mas suas arquiteturas técnicas e modelos de negócios diferem.

Arquitetura Técnica:

A Grass utiliza uma arquitetura de Camada de Dados Solana Layer 2 com validação centralizada, dependendo de um único validador. O OpenLayer, como um usuário inicial do AVS (Active Validation Service) da EigenLayer, emprega um mecanismo de validação descentralizado usando incentivos econômicos e penalidades de corte. Seu design modular enfatiza escalabilidade e flexibilidade nos serviços de verificação de dados.

Foco do Produto:

Ambos os projetos permitem que os usuários monetizem dados por meio de nós, mas seus casos de uso de negócios divergem:

  • Grass possui um modelo de mercado de dados que utiliza L2 para armazenar conjuntos de dados estruturados e de alta qualidade, verificáveis. Esses conjuntos de dados são adaptados para empresas de IA como recursos de treinamento.
  • OpenLayer foca na verificação de fluxo de dados em tempo real (VaaS) em vez de armazenamento dedicado de dados. Ele atende cenários dinâmicos como oráculos para RWA/DeFi/mercados de previsão, dados sociais em tempo real e aplicações de IA que requerem entrada instantânea de dados.

Grass tem como alvo principalmente empresas de inteligência artificial e cientistas de dados que necessitam de conjuntos de dados estruturados em grande escala, assim como instituições de pesquisa e empresas que necessitam de dados baseados na web. OpenLayer atende aos desenvolvedores Web3 que necessitam de fontes de dados off-chain, empresas de inteligência artificial que requerem fluxos verificáveis em tempo real e empresas que buscam estratégias inovadoras como a verificação do uso de produtos concorrentes.

Competição futura e sinergias

Embora ambos os projetos ocupem atualmente nichos distintos, suas funcionalidades podem convergir à medida que a indústria evolui:

  • A grama poderia se expandir para oferecer dados estruturados em tempo real.
  • OpenLayer pode desenvolver um livro-razão de dados dedicado para gerenciamento de conjuntos de dados.

Ambos os projetos também poderiam integrar a rotulagem de dados como um passo crítico para treinar conjuntos de dados. A Grass, com sua vasta rede de mais de 2,2 milhões de nós ativos, poderia implantar rapidamente serviços de Aprendizado por Reforço com Feedback Humano (RLHF) para otimizar modelos de IA. O OpenLayer, com sua expertise em verificação e processamento de dados em tempo real, poderia manter uma vantagem em credibilidade e qualidade de dados, especialmente para conjuntos de dados privados.

Apesar da sobreposição potencial, suas forças únicas e abordagens tecnológicas podem permitir que dominem diferentes nichos dentro do ecossistema de dados descentralizados.

(Source:IOSG, David)

4.3 Vana: Uma Rede de Pool de Dados Centrada no Usuário

Vana é uma rede de pool de dados centrada no usuário projetada para fornecer dados de alta qualidade para IA e aplicativos relacionados. Comparado ao OpenLayer e ao Grass, Vana adota uma abordagem tecnológica e de negócios distintas. Em setembro de 2024, Vana garantiu $5 milhões em financiamento liderado pela Coinbase Ventures, seguindo uma rodada da Série A de $18 milhões em que a Paradigm atuou como investidor líder, com a participação da Polychain e Casey Caruso.

Lançada originalmente em 2018 como um projeto de pesquisa do MIT, a Vana é uma blockchain de Camada 1 dedicada aos dados privados do usuário. Suas inovações em propriedade de dados e distribuição de valor permitem que os usuários lucrem com modelos de IA treinados em seus dados. A Vana alcança isso por meio de Pools de Liquidez de Dados (DLPs) confiáveis, privados e atribuíveis e um mecanismo inovador de Prova de Contribuição que facilita o fluxo e a monetização de dados privados.

4.3.1. Pools de Liquidez de Dados (DLPs)

Vana apresenta um conceito único de Pools de Liquidez de Dados (DLPs), que estão no cerne da rede Vana. Cada DLP é uma rede independente ponto-a-ponto que agrega tipos específicos de ativos de dados. Os usuários podem fazer upload de seus dados privados, como registros de compras, hábitos de navegação e atividade nas redes sociais, em DLPs designados e decidir se autorizam o uso por terceiros específicos.

Os dados dentro dessas pools passam por desidentificação para proteger a privacidade do usuário, ao mesmo tempo em que permanecem utilizáveis para aplicações comerciais, como treinamento de modelos de IA e pesquisa de mercado. Os usuários que contribuem com dados para um DLP são recompensados com tokens DLP correspondentes. Esses tokens representam a contribuição do usuário para a pool, concedem direitos de governança e dão direito ao usuário a uma parcela dos lucros futuros.

Diferentemente da venda única tradicional de dados, Vana permite que os dados participem continuamente do ciclo econômico, possibilitando que os usuários recebam recompensas contínuas com rastreamento transparente e visualizado do uso.

4.3.2. Mecanismo de Prova de Contribuição

O mecanismo de Prova de Contribuição (PoC) é o alicerce da abordagem da Vana para garantir a qualidade dos dados. Cada DLP pode definir uma função PoC única adaptada às suas características, verificando a autenticidade e integridade dos dados enviados e avaliando sua contribuição para melhorar o desempenho do modelo de IA. Esse mecanismo quantifica as contribuições do usuário, registrando-as para alocar recompensas. Semelhante ao conceito de "Proof of Work" em criptomoedas, o PoC recompensa os usuários com base na qualidade, quantidade e frequência de uso dos dados. Contratos inteligentes automatizam esse processo, garantindo que os contribuidores sejam compensados de forma justa e transparente.

Arquitetura Técnica de Vana

  1. Camada de liquidez de dados:

Essa camada central permite a contribuição, verificação e registro de dados nos DLPs, transformando dados em ativos digitais transferíveis on-chain. Os criadores de DLP implantam contratos inteligentes para definir propósitos, métodos de verificação e parâmetros de contribuição. Os contribuintes de dados enviam dados para validação, e o módulo PoC avalia a qualidade dos dados e atribui direitos de governança e recompensas.

  1. Camada de portabilidade de dados:

Servindo como a camada de aplicação da Vana, esta plataforma facilita a colaboração entre os contribuintes de dados e os desenvolvedores. Ele fornece infraestrutura para a construção de modelos distribuídos de treinamento de IA e AI DApps usando a liquidez em DLPs.

  1. Conectoma:

Um livro-razão descentralizado que sustenta o ecossistema Vana, o Connectome atua como um mapa de fluxo de dados em tempo real. Ele registra todas as transações de dados em tempo real usando consenso de Prova de Participação, garantindo a transferência eficiente de tokens DLP e permitindo o acesso cruzado de dados DLP. Totalmente compatível com EVM, ele permite interoperabilidade com outras redes, protocolos e aplicativos DeFi.

(Fonte: Vana)

Vana fornece uma abordagem inovadora, focando na liquidez e capacitação dos dados do usuário. Esse modelo de troca de dados descentralizada não apenas suporta treinamento de IA e mercados de dados, mas também permite compartilhamento e propriedade de dados entre plataformas de forma transparente no ecossistema Web3. No final, promove uma internet aberta onde os usuários podem possuir e gerenciar seus dados e os produtos inteligentes criados a partir deles.

5. A Proposta de Valor das Redes de Dados Descentralizadas

Em 2006, o cientista de dados Clive Humby afirmou famosamente: 'Os dados são o novo petróleo'. Nas últimas duas décadas, testemunhamos a rápida evolução de tecnologias que 'refinam' esse recurso, como análise de big data e aprendizado de máquina, que desbloquearam um valor sem precedentes dos dados. De acordo com a IDC, até 2025, a esfera global de dados se expandirá para 163 ZB, com a maioria vindo de indivíduos. À medida que IoT, dispositivos vestíveis, IA e serviços personalizados se tornam mais difundidos, grande parte dos dados necessários para uso comercial terá origem em indivíduos.

Desafios das soluções tradicionais e inovações Web3

Soluções de dados Web3 superam as limitações da infraestrutura tradicional, aproveitando redes de nós distribuídos. Essas redes possibilitam uma coleta de dados mais ampla e eficiente, melhorando a acessibilidade e verificabilidade em tempo real de conjuntos de dados específicos. As tecnologias Web3 garantem a autenticidade e integridade dos dados, ao mesmo tempo que protegem a privacidade do usuário, promovendo um modelo de utilização de dados mais justo. Essa arquitetura descentralizada democratiza o acesso aos dados e capacita os usuários a compartilhar os benefícios econômicos da economia de dados.

Tanto o OpenLayer quanto o Grass contam com modelos de nós de usuário para aprimorar processos específicos de coleta de dados, enquanto o Vana monetiza dados privados de usuários. Essas abordagens não apenas melhoram a eficiência, mas também permitem que usuários comuns participem do valor criado pela economia de dados, criando um cenário de ganha-ganha para usuários e desenvolvedores.

Através da tokenomics, as soluções de dados Web3 redesenham os modelos de incentivo, estabelecendo um mecanismo de distribuição de valor mais justo. Esses sistemas atraem uma participação significativa dos usuários, recursos de hardware e investimentos de capital, otimizando a operação de toda a rede de dados.

As soluções Web3 oferecem modularidade e escalabilidade, permitindo iteração tecnológica e expansão do ecossistema. Por exemplo: o design modular da OpenLayer fornece flexibilidade para avanços futuros; a arquitetura distribuída da Grass otimiza o treinamento de modelos de IA fornecendo conjuntos de dados diversos e de alta qualidade.

Desde a geração, armazenamento e verificação de dados até a troca e análise, as soluções impulsionadas pela Web3 abordam as deficiências das infraestruturas tradicionais. Ao permitir que os usuários monetizem seus dados, essas soluções transformam fundamentalmente a economia de dados.

À medida que as tecnologias evoluem e os cenários de aplicação se expandem, as camadas de dados descentralizadas estão prontas para se tornarem um pilar da infraestrutura da próxima geração. Elas irão suportar uma ampla gama de indústrias orientadas por dados, ao mesmo tempo em que capacitam os usuários a assumirem o controle de seus dados e seu potencial econômico.

Aviso Legal:

  1. Este artigo é reproduzido de [IOSG Ventures]. Todos os direitos autorais pertencem ao autor original [IOSG Ventures]. Se houver objeções a esta reprodução, entre em contato com o Portão Aprenderequipe, e eles vão lidar com isso prontamente.
  2. Aviso de responsabilidade: As opiniões expressas neste artigo são exclusivamente do autor e não constituem um conselho de investimento.
  3. A equipe do Gate Learn traduziu o artigo para outras línguas. É proibido copiar, distribuir ou plagiar os artigos traduzidos, a menos que seja mencionado.
Bắt đầu giao dịch
Đăng ký và giao dịch để nhận phần thưởng USDTEST trị giá
$100
$5500