Leer, indexar, analizar y resumir la ruta de índice de datos Web3

Este artículo explora el desarrollo de la accesibilidad de datos de Bloquear, compara las características de los protocolos de servicios de datos The Graph, Chainbase y Space and Time en términos de arquitectura y aplicaciones de inteligencia artificial, señala que los servicios de datos de Bloquear están evolucionando hacia la inteligencia y seguridad, y seguirán desempeñando un papel importante como infraestructura de la industria en el futuro.

1. Introducción

Desde el primer conjunto de dApp en 2017, Etheroll, ETHLend y CryptoKitties, hasta la amplia variedad de dApp financieras, de juegos y sociales basadas en diferentes blockchains en la actualidad, ¿alguna vez has pensado en el origen de los diversos tipos de datos adoptados por estas dApp durante su interacción cuando hablamos de aplicaciones on-chain de Descentralización?

En el año 2024, el foco está en la inteligencia artificial y el Web3. En el mundo de la inteligencia artificial, los datos son como la fuente de vida para su crecimiento y evolución. Así como las plantas dependen del sol y el agua para crecer fuertes, los sistemas de inteligencia artificial también dependen de grandes cantidades de datos para seguir 'aprendiendo' y 'pensando' constantemente. Sin datos, el algoritmo de la inteligencia artificial, por más ingenioso que sea, no es más que un castillo en el aire, incapaz de desplegar su inteligencia y eficacia como debería.

Este artículo analiza en profundidad la evolución de la indexación de datos en la cadena Bloquear desde la perspectiva de la accesibilidad a los datos, y compara el protocolo de indexación de datos establecido The Graph con los nuevos servicios de datos en la cadena Bloquear Chainbase y Space and Time. Se examina especialmente la combinación de estas dos tecnologías de inteligencia artificial en términos de características de servicios de datos y arquitectura de productos.

2. Datos de índice: desde el nodo de la cadena Bloquear hasta la base de datos de la cadena completa

2.1 Datos de origen: nodo de la cadena Bloquear

Desde el principio, cuando se trata de entender qué es la cadena de bloques, a menudo vemos esta frase: la cadena de bloques es el libro mayor de la descentralización. El nodo de la cadena de bloques es la base de toda la red de la cadena de bloques, responsable de grabar, almacenar y difundir todos los datos de transacciones en la cadena. Cada nodo tiene una copia completa de los datos de la cadena de bloques, asegurando así la característica de descentralización de la red. Sin embargo, para el usuario común, construir y mantener un nodo de la cadena de bloques no es tarea fácil. Esto no solo requiere habilidades técnicas profesionales, sino que también conlleva costos elevados de hardware y ancho de banda. Además, la capacidad de consulta del nodo común es limitada y no puede consultar los datos en el formato requerido por los desarrolladores. Por lo tanto, aunque teóricamente cualquiera puede ejecutar su propio nodo, en la práctica, los usuarios suelen depender de servicios de terceros.

Para abordar este problema, los proveedores de Nodo RPC (llamada a procedimiento remoto) han surgido. Estos proveedores son responsables de los costos y la gestión del Nodo, y proporcionan datos a través de puntos finales RPC. Esto permite a los usuarios acceder fácilmente a los datos de la cadena de bloques sin tener que construir su propio Nodo. Los puntos finales RPC públicos son gratuitos, pero tienen limitaciones de velocidad, lo que puede afectar negativamente la experiencia del usuario de dApp. Los puntos finales RPC privados ofrecen un mejor rendimiento al reducir la congestión, pero incluso la recuperación de datos más simple requiere una comunicación de ida y vuelta considerable. Esto los hace pesados en cuanto a las solicitudes y poco eficientes para consultas de datos complejas. Además, los puntos finales RPC privados suelen ser difíciles de escalar y carecen de compatibilidad entre diferentes redes. Sin embargo, los proveedores de Nodo ofrecen una interfaz de API estandarizada que reduce la barrera de acceso a los datos on-chain, sentando las bases para el análisis y la aplicación de datos futuros.

2.2 Análisis sintáctico de datos: de los datos prototipo a los datos utilizables

Los datos obtenidos de los nodos de Bloquear suelen ser datos originales que han sido encriptados y codificados. Si bien estos datos mantienen la integridad y seguridad de la cadena de Bloquear, su complejidad también aumenta la dificultad en el análisis de datos. Para usuarios comunes o desarrolladores, tratar directamente con estos datos originales requiere un gran conocimiento técnico y recursos de cálculo.

El proceso de análisis de datos es especialmente importante en este contexto. Al analizar datos de prototipos complejos y convertirlos en un formato más fácil de entender y manipular, los usuarios pueden comprender y utilizar estos datos de manera más intuitiva. El éxito del análisis de datos determina directamente la eficiencia y efectividad de las aplicaciones de la cadena de bloques, y es un paso clave en todo el proceso de indexación de datos.

2.3 Evolución del indexador de datos

Con el aumento de los datos en la cadena Bloquear, también aumenta la demanda de un indexador de datos. El indexador desempeña un papel crucial en la organización de los datos on-chain y en su envío a una base de datos para facilitar las consultas. El funcionamiento del indexador consiste en indexar los datos de la cadena Bloquear y hacerlos disponibles en todo momento a través de un lenguaje de consulta similar a SQL (como GraphQL, etc.). Al proporcionar una interfaz unificada para consultar datos, el indexador permite a los desarrolladores recuperar la información requerida de manera rápida y precisa utilizando un lenguaje de consulta estandarizado, lo que simplifica en gran medida el proceso.

Los diferentes tipos de indexadores optimizan la recuperación de datos de diversas formas:

· Indizador de nodos completos: Estos indizadores ejecutan nodos completos de la cadena de bloques y extraen datos directamente de ellos para garantizar la integridad y precisión de los datos, pero requieren una gran capacidad de almacenamiento y procesamiento.

· Índices ligeros: Estos índices dependen de un Nodo completo según sea necesario para obtener datos específicos, lo que reduce los requisitos de almacenamiento pero puede aumentar el tiempo de consulta.

· Indexador especializado: Estos indexadores están diseñados específicamente para ciertos tipos de datos o blockchains específicos, para optimizar la recuperación de casos de uso particulares, como datos no fungibles o transacciones de Finanzas descentralizadas.

· Indizador de agregación: Estos indizadores extraen datos de múltiples blockchains y fuentes, incluida información off-chain, para proporcionar una interfaz de consulta unificada, lo que es especialmente útil para dApp multi-cadena.

Actualmente, el archivo de Ethereum Nodo (Nodo de archivo) ocupa unos 13,5 TB de espacio de almacenamiento en el cliente Geth, mientras que en el cliente Erigon, el requisito de archivo es de unos 3 TB. A medida que la cadena de bloques continúe subiendo, la cantidad de datos almacenados en el archivo Nodo también aumentará. Ante una cantidad tan grande de datos, el protocolo de indexación convencional no solo admite índices multicadena, sino que también personaliza los marcos de análisis de datos para las necesidades de datos de diferentes aplicaciones. Por ejemplo, el marco The Graph's Subgraph es un buen ejemplo.

La aparición del indexador ha mejorado en gran medida la eficiencia de indexación y consulta de datos. En comparación con los puntos finales RPC tradicionales, el indexador puede indexar eficientemente grandes cantidades de datos y admitir consultas rápidas. Estos indexadores permiten a los usuarios realizar consultas complejas, filtrar datos fácilmente y analizarlos después de la extracción. Además, algunos indexadores también admiten la agregación de fuentes de datos de múltiples blockchains, evitando el problema de tener que implementar múltiples API en dApps de múltiples cadenas. Al ejecutarse de forma distribuida en varios Nodo, los indexadores no solo proporcionan mayor seguridad y rendimiento, sino que también reducen el riesgo de interrupciones y tiempos de inactividad que podrían surgir con proveedores de servicios RPC centralizados.

En comparación, el indexador permite a los usuarios obtener la información deseada directamente sin tener que manejar datos complejos subyacentes, mediante un lenguaje de consulta predefinido. Este mecanismo mejora significativamente la eficiencia y confiabilidad de la recuperación de datos, lo que es una innovación importante en el acceso a datos en la cadena de Bloquear.

2.4 Base de datos de cadena completa: alineación prioritaria con el flujo

El uso de un Nodo de índice para consultar datos generalmente significa que la API se convierte en el único portal para consumir datos on-chain. Sin embargo, a medida que un proyecto entra en una etapa de expansión, a menudo se necesitan fuentes de datos más flexibles, que las API estandarizadas no pueden proporcionar. Con la creciente complejidad de las necesidades de las aplicaciones, los indexadores de datos primarios y sus formatos de índice estandarizados gradualmente no pueden satisfacer las diversas necesidades de consulta, como la búsqueda, el acceso cross-chain o el mapeo de datos off-chain.

En las arquitecturas modernas de canalización de datos, ha surgido un enfoque centrado en la transmisión como una solución a las limitaciones del procesamiento tradicional por lotes, lo que permite la ingesta, el procesamiento y el análisis de datos en tiempo real. Este cambio de paradigma permite a las organizaciones responder inmediatamente a los datos entrantes, lo que se traduce en información y toma de decisiones casi instantáneas. Del mismo modo, el desarrollo de los proveedores de servicios de datos de Bloquear Chain también se está moviendo en la dirección de la construcción de flujos de datos de Bloquear Chain, y los proveedores de servicios de indexación tradicionales han lanzado sucesivamente productos que obtienen datos de Bloquear Chain en tiempo real en forma de flujos de datos, como The Graph's Substreams, Goldsky's Mirror y Chainbase y SubSquid La cadena Bloquear genera un lago de datos en tiempo real de flujos de datos.

Estos servicios están diseñados para abordar la necesidad de análisis en tiempo real de transacciones en la cadena de bloques y proporcionar capacidades de consulta más completas. Al igual que la arquitectura 'flujo primero' revolucionó el procesamiento y el consumo de datos en los canales de datos tradicionales mediante la reducción de la latencia y la mejora de la capacidad de respuesta, estos proveedores de servicios de flujo de datos en la cadena de bloques también esperan respaldar el desarrollo de más aplicaciones y ayudar en el análisis de datos on-chain mediante el uso de fuentes de datos más avanzadas y maduras.

Al redefinir los desafíos de los datos on-chain desde la perspectiva de los modernos tuberías de datos, podemos ver todo el potencial de la gestión, almacenamiento y suministro de datos on-chain desde una nueva perspectiva. Cuando comenzamos a ver los indexadores como subgráficos y ETH ETL como flujos de datos en las tuberías de datos en lugar de la salida final, podemos imaginar un mundo donde se puedan crear conjuntos de datos de alto rendimiento personalizados para cualquier caso de uso empresarial.

3. ¿AI + Database? Comparación en profundidad de The Graph, Chainbase, Space and Time

3.1 El Gráfico

La red de The Graph utiliza una red de nodos descentralizada para proporcionar servicios de indexación y consulta de datos en múltiples cadenas, facilitando a los desarrolladores la indexación de datos en la cadena de bloques y la construcción de aplicaciones descentralizadas. Su principal modelo de producto consiste en un mercado de ejecución de consultas de datos y un mercado de almacenamiento en caché de índices de datos. Ambos mercados sirven a las necesidades de consulta de productos de los usuarios. En el mercado de ejecución de consultas de datos, los consumidores seleccionan y pagan por los índices de datos proporcionados por nodos adecuados. El mercado de almacenamiento en caché de índices de datos permite a los nodos de índice asignar recursos según la popularidad histórica de los subgrafos, las tarifas de consulta cobradas y las demandas de exhibición on-chain de los curadores de subgrafos.

Los subgráficos son estructuras de datos fundamentales en la red The Graph. Definen cómo extraer y transformar datos de la cadena de bloques en un formato que se puede consultar (por ejemplo, un esquema de GraphQL). Cualquier persona puede crear subgráficos y múltiples aplicaciones pueden reutilizar estos subgráficos, lo que mejora la reutilización y eficiencia de los datos.

La red de The Graph está compuesta por cuatro roles clave: indexadores, curadores, delegadores y desarrolladores, que trabajan juntos para proporcionar soporte de datos a las aplicaciones web3. A continuación se presentan sus respectivas responsabilidades:

· Indexador: Un indexador es un Nodo en la red de The Graph que participa en la red mediante stake de GRT (el token nativo de The Graph), y proporciona servicios de indexación y procesamiento de consultas.

· Delegador: Los delegadores son usuarios que stakean tokens GRT a un Nodo de índice para apoyar su operación. Los delegadores ganan parte de las recompensas a través del Nodo al que han delegado.

· Curador: El curador es responsable de determinar qué subgrafos deben ser indexados en la red. El curador ayuda a garantizar que los subgrafos valiosos se procesen con prioridad.

· Desarrollador (Developer): A diferencia de los tres anteriores que son proveedores, el desarrollador es el demandante y el principal usuario de The Graph. Crean y envían subgrafos a la red de The Graph y esperan que la red proporcione los datos requeridos.

Actualmente, The Graph se ha trasladado a un servicio de alojamiento descentralizado de subgráficos, donde hay incentivos económicos circulantes entre las diferentes partes involucradas para garantizar el funcionamiento del sistema:

· Índice Recompensa del Nodo: Los nodos de índice ganan ingresos a través de las tarifas de consulta de los consumidores y parte de la recompensa de bloque GRT Token.

· Recompensa del delegante: Los delegantes obtienen una parte de la recompensa a través del índice de Nodo que apoyan.

· Premio del curador: Si un curador señala un subgrafo valioso, puede obtener una parte de la tarifa de consulta como recompensa.

De hecho, los productos de The Graph también están experimentando un rápido desarrollo en la ola de la inteligencia artificial. Como uno de los equipos de desarrollo principales del ecosistema de The Graph, Semiotic Labs se ha comprometido a utilizar la tecnología de inteligencia artificial para optimizar la indexación de precios y la experiencia de consulta de los usuarios. Actualmente, las herramientas desarrolladas por Semiotic Labs, AutoAgora, Allocation Optimizer y AgentC, mejoran el rendimiento del ecosistema en varios aspectos.

· AutoAgora introduce un mecanismo dinámico de fijación de precios que ajusta los precios en tiempo real en función de la cantidad de consultas y el uso de recursos, optimizando la estrategia de fijación de precios para garantizar la competitividad del indexador y maximizar los ingresos.

· El optimizador de asignación resuelve el problema complejo de asignación de recursos de subgráficos, ayudando al indexador a lograr la mejor configuración de recursos para mejorar los ingresos y el rendimiento.

AgentC es una herramienta experimental que permite a los usuarios acceder a los datos de la cadena de bloques de The Graph a través del lenguaje natural para mejorar la experiencia del usuario.

La aplicación de estas herramientas ha mejorado aún más la inteligencia y la facilidad de uso del sistema The Graph al combinarla con la IA.

3.2 Chainbase

Chainbase es una red de datos de cadena completa que integra todos los datos de la cadena en una plataforma, lo que facilita a los desarrolladores la construcción y el mantenimiento de aplicaciones. Sus características únicas incluyen:

· La laguna de datos en tiempo real: Chainbase proporciona un lago de datos en tiempo real diseñado específicamente para el flujo de datos de la cadena, lo que permite el acceso inmediato a los datos en el momento de su generación.

· Arquitectura de doble cadena: Chainbase construyó una capa de ejecución basada en Eigenlayer AVS, paralela a Consenso Algoritmo de CometBFT, formando una arquitectura de doble cadena. Este diseño mejora la programabilidad y la capacidad de combinación de los datos de Interacción cross-chain, admite alta velocidad de transmisión, baja latencia y finalidad, y mejora la seguridad de la red mediante un modelo de doble stake.

· Estándar de formato de datos innovador: Chainbase ha introducido un nuevo estándar de formato de datos llamado "manuscripts", que optimiza la estructura y el uso de datos en la industria de la encriptación.

· Modelo de mundo de encriptación: con sus vastos recursos de datos de Bloquear cadena, Chainbase, combinado con tecnología de modelos de IA, ha creado un modelo de IA que puede comprender y predecir de manera efectiva las transacciones de la cadena Bloquear y interactuar con ellas. Actualmente se ha lanzado el modelo básico Theia para uso público.

Estas características hacen que Chainbase se destaque en el protocolo de índice de Bloquear, especialmente enfocándose en la accesibilidad de datos en tiempo real, el formato innovador de datos y la creación de modelos más inteligentes para mejorar la visibilidad mediante la combinación de datos en la cadena y fuera de la cadena.

El modelo de inteligencia artificial Theia de Chainbase es el punto clave que lo diferencia de otros protocolos de servicios de datos. Theia se basa en el modelo DORA desarrollado por NVIDIA, que combina datos on-chain y off-chain, así como actividades temporales y espaciales, para aprender y analizar patrones de encriptación, y responder a través de razonamiento causal, lo que permite profundizar en el valor potencial y las regularidades de los datos on-chain, y proporcionar servicios de datos más inteligentes para los usuarios.

El servicio de datos habilitado para IA hace que Chainbase ya no sea solo una plataforma de servicios de datos Bloquear, sino un proveedor de servicios de datos más competitivo. Con recursos de datos poderosos y análisis proactivo de IA, Chainbase puede proporcionar una visión de datos más amplia y optimizar el proceso de manejo de datos del usuario.

3.3 Espacio y Tiempo

Space and Time (SxT) tiene como objetivo crear una capa de computación verificable, expandiendo zk-SNARKs en el almacén de datos de Descentralización, para proporcionar procesamiento de datos confiable para Contratos inteligentes, modelos de lenguaje grandes y empresas. Actualmente, Space and Time ha obtenido una ronda de financiamiento de la Serie A de $20 millones liderada por Framework Ventures, Lightspeed Faction, Arrington Capital y Hivemind Capital.

En el campo de la indexación y validación de datos, Space and Time ha introducido un nuevo camino tecnológico: la Prueba de SQL. Esta es una innovadora tecnología de Prueba de conocimiento cero (ZKP) desarrollada por Space and Time, que asegura que las consultas SQL ejecutadas en almacenes de datos de Descentralización sean inalterables y verificables. Al ejecutar una consulta, la Prueba de SQL generará una prueba de encriptación para verificar la integridad y precisión de los resultados de la consulta. Esta prueba se adjunta a los resultados de la consulta, permitiendo que cualquier validador (como Contrato inteligente, etc.) confirme de manera independiente que los datos no han sido manipulados durante el proceso. Las redes tradicionales de Bloquear generalmente dependen de un Mecanismo de consenso para verificar la autenticidad de los datos, mientras que la Prueba de SQL de Space and Time implementa una forma más eficiente de validación de datos. Específicamente, en el sistema de Space and Time, un Nodo se encarga de obtener los datos, mientras que otros Nodos verifican la autenticidad de los datos a través de la tecnología zk. Este enfoque cambia el consumo de recursos para obtener datos, que se produce cuando múltiples Nodos repiten la indexación de los mismos datos bajo un Mecanismo de consenso, mejorando el rendimiento general del sistema. A medida que esta tecnología madura, se convierte en un punto de apoyo para una serie de productos tradicionales de construcción de datos en Bloquearon-chain que se centran en la confiabilidad de los datos.

Al mismo tiempo, SxT ha estado trabajando en estrecha colaboración con Microsoft AI Joint Innovation Lab para acelerar el desarrollo de herramientas de IA generativas, lo que facilita a los usuarios el procesamiento de datos de blockchain a través del procesamiento del lenguaje natural. Actualmente, en Space and Time Studio, los usuarios pueden experimentar con consultas en lenguaje natural, y la IA automáticamente las convierte en SQL y ejecuta consultas en nombre del usuario para presentar los resultados finales que el usuario necesita.

3.4 Comparación de diferencias

4. Conclusiones y Perspectivas

En resumen, la tecnología de índice de datos de la cadena Bloquear ha evolucionado desde la fuente de datos Nodo inicial hasta un servicio de datos de cadena completa habilitado para IA, a través del desarrollo de analizadores de datos e indexadores, en un proceso de mejora continua. La evolución de estas tecnologías no solo ha mejorado la eficiencia y precisión del acceso a los datos, sino que también ha brindado a los usuarios una experiencia inteligente sin precedentes.

Mirando hacia el futuro, con el continuo desarrollo de la tecnología de IA y nuevas tecnologías como zk-SNARKs, el servicio de datos de la cadena Bloquear se volverá aún más inteligente y seguro. Tenemos razones para creer que el servicio de datos de la cadena Bloquear seguirá desempeñando un papel crucial como infraestructura en el futuro, brindando un sólido apoyo para el progreso y la innovación de la industria.

Declaración:

Este artículo es una reproducción de [[Trustless Labs](https://x.com/TrustlessLabs/status/1833815530647834843)], los derechos de autor vesting pertenecen al autor original [Trustless Labs], si hay alguna objeción a la reproducción, póngase en contacto con el equipo de Gate Learn, el equipo procesará la objeción lo antes posible según el procedimiento correspondiente.
Renuncia de responsabilidad: Los puntos de vista y opiniones expresados en este artículo representan únicamente el punto de vista personal del autor y no constituyen ninguna recomendación de inversión.
Las versiones en otros idiomas del artículo son traducidas por el equipo de Gate Learn. No se permite copiar, difundir o plagiar el artículo traducido sin mencionar a [Gate.io].

GRT-9.04%

SPACE2.2%

Ver originales

El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.

1 me gusta

Recompensa
1
Comentar
Compartir

Comentar

0/400

Sin comentarios

Tema
#BTC#
189k publicaciones
#ETH#
118k publicaciones
#PI#
83k publicaciones
4#GateioInto11#
76k publicaciones
5#ContentStar#
64k publicaciones
6#BOME#
59k publicaciones
7#GT#
56k publicaciones
8#DOGE#
53k publicaciones
9#MAGA#
52k publicaciones
10#SLERF#
51k publicaciones

Anclado