Nuevo sistema de Megabytes de Meta: Un avance en la superación de obstáculos para los GPTs

2023-06-07, 00:51

Los GPT pueden traducir textos, resumir datos y crear contenido adecuado para diversos fines como el marketing.

Megabyte de Meta tiene como objetivo superar los obstáculos que enfrentan otros sistemas GPT como el GPT-4 de OpenAi y ChatGPT.

Megabyte es diferente de otros modelos GPT porque no utiliza la tokenización.

El modelo Megabyte comprende un transformador local, un incrustador de parches y un transformador global.

Introducción

La innovación tecnológica ha revolucionado la forma en que los seres humanos interactúan y realizan diversas tareas, tanto personales como comerciales. La inteligencia artificial, también llamada aprendizaje automático, es capaz de llevar a cabo diferentes actividades como escribir ensayos o realizar planes financieros. En este artículo discutimos la importancia de Generative Pre-trained Transformer (GPT) en el procesamiento del lenguaje natural y sus aplicaciones. También nos centraremos en el Sistema de megabytes de Meta, que supera varios obstáculos para los GPTs.

Importancia de los GPT en el procesamiento del lenguaje natural

Los transformadores generadores pre-entrenados (GPT) tienen muchos beneficios en varios sectores de la economía, ya que mejoran la productividad y aumentan la conciencia social. Primero, es importante saber que los GPT crean textos similares a los humanos sobre varios temas.

Los GPT utilizan varios parámetros para procesar datos y presentarlos de formas que sean fáciles de entender. Hay diferentes aplicaciones que utilizan GPT para crear valor para los seres humanos y la sociedad en general.

Básicamente, los GPT son componentes importantes de aplicaciones impulsadas por inteligencia artificial que traducen información de un idioma a otro. También generan y resumen grandes volúmenes de datos en información fácil de entender. En algunos casos, los GPT permiten la generación de contenido adecuado para diferentes propósitos, como poemas, publicaciones de blogs, ensayos académicos, material de marketing y memes, entre otros.

Las empresas también pueden usar GPT para alimentar chatbots y asistentes virtuales que pueden interactuar con personas reales de manera conversacional, ayudándoles a comprender diferentes aspectos comerciales o sociales. Para fines comerciales, pueden generar análisis de sentimientos sobre cualquier tema o campo de interés. Como ejemplo, existen protocolos impulsados por IA que generan sentimientos del mercado de criptomonedas que permiten a los comerciantes y otros inversores tomar decisiones de inversión informadas.

Otros casos de uso de los GPT en el procesamiento del lenguaje natural y aplicaciones de IA incluyen la creación de contenido para la comercialización de productos, el servicio al cliente, el análisis de información financiera, así como la extracción y el informe de datos, entre otros.

Limitaciones de los modelos GPT tradicionales

Aunque hay varias tipos de GPT creados por diferentes plataformas como ChatGPT y OpenAI, la mayoría de ellos tienen limitaciones graves.

Los modelos Generativos de IA actuales mejor calificados incluyendo GPT-4 de OpenAI y ChatGPT utiliza la arquitectura Transformer que fue introducida por investigadores de Google. El aumento en las escalas de autoatención y la longitud de las entradas y salidas crea un desafío ya que cada palabra necesita atención. Básicamente, este sistema funciona bien cuando se utilizan pocas palabras como entrada.

Sin embargo, el método Megabyte utiliza una arquitectura diferente que divide las secuencias de entradas y salidas en parches en lugar de tokens. Como tal, puede manejar muchas más palabras que los modelos actuales.

Además, el enfoque de Meta resuelve el problema de escalabilidad que es común entre la mayoría de los modelos actualmente en el mercado. Básicamente, el modelo Megabyte permite que una sola red feedforward actúe sobre un parche que consta de varios tokens. Por lo tanto, el sistema Megabyte de Meta funciona en paralelo en lugar de en serie. Esto aumenta su eficiencia incluso si el modelo base tiene muchos parámetros.

Leer también: El Meta Metaverso: ¿En qué está trabajando la empresa?

Algunos de los modelos, como las redes neuronales profundas, son complejos de entender y explicar, lo que puede reducir la confianza, la responsabilidad y plantear preocupaciones éticas. Por lo tanto, se necesita modelos más simples como Meta Ai, que sean fáciles de explicar. Esto se debe a que la mayoría de los usuarios querrían saber cómo funciona un sistema para confiar en él.

Otro problema es que algunos de estos modelos requieren mucha información para ser validados y entrenados. Sin embargo, es posible que no esté disponible dicha información, lo que reduce su eficiencia. Además, los problemas relacionados con la privacidad, el sesgo, el ruido, la seguridad y la incompletitud de los datos afectan negativamente la solidez y el rendimiento de la mayoría de los modelos GPT.

La mayoría de los modelos de IA tradicionales son caros y consumen mucha energía al realizar los cálculos. Esto se debe a que la mayoría de los sistemas son intensivos en computación. Como tal, consumen muchos recursos y aumentan los costos ambientales.

Además, la mayoría de estos modelos tienen poca interoperabilidad como resultado de las diferencias en su estandarización. Por lo tanto, es muy difícil para ellos integrarse ya que utilizan diferentes lenguajes, marcos y formatos. Sin embargo, los formatos abiertos como ONNX o compiladores universales pueden mejorar su comunicación.

Es importante darse cuenta de que la arquitectura de Meta AI está creada de tal manera que supera la mayoría de estos problemas.

Sistema Megabyte de Meta

Meta AI ha desarrollado una nueva Sistema GPT llamado Megabyte con el objetivo de evitar la tokenización que la mayoría de los modelos GPT utilizan. Su sistema generativo pre-entrenado de transformadores (GPT) procesa grandes volúmenes de datos como videos y textos, como novelas, sin utilizar la tokenización.

Como punto, la tokenización funciona de manera similar a la compresión de archivos mediante la conversión de grandes cantidades de datos en tokens. El transformador procesa los tokens para crear tokens de salida que el sistema decodifica.

Normalmente, la tokenización permite a los modelos de IA convertir grandes cadenas de datos en números. Por ejemplo, un sistema puede convertir una frase como “Mi color favorito es el rojo” en una cadena de tokens como “3666, 4004, 3124, 318, 2266, 13”, que luego se procesa.

Sin embargo, con este método hay un límite en la cantidad de datos que procesa. Por ejemplo, el límite de GPT-3.5 está entre 3,000 y 4,000 palabras, mientras que el de GPT-4 está entre 24,000 y 32,000.

Por el contrario, Meta ha descartado la tokenización a favor de la nueva arquitectura de predicción de múltiples capas que depende de la modelización de extremo a extremo de más de un millón de bytes de datos. Esto es un gran logro considerando que puede procesar un documento compuesto por hasta 750.000 palabras. Esto significa que el sistema Megabyte puede procesar datos contenidos en tres novelas de tamaño promedio.

Como se señaló, Megabyte supera los obstáculos de la tokenización que surgieron debido a sus limitaciones de datos duros, el tiempo requerido para entrenar sistemas y el alto consumo de energía. Además, sin la tokenización, es posible entrenar modelos de IA para admitir idiomas que no sean inglés y que puedan codificarse en los caracteres estándar de 8 bits, por ejemplo.

La inteligencia artificial de cripto de Meta expandirá las oportunidades existentes a medida que democratiza aún más varias tecnologías blockchain. Por ejemplo, los desarrolladores pueden introducir bots de trading de criptomonedas en sus idiomas nativos, como el ruso o el francés. Más importante aún, las organizaciones autónomas descentralizadas (DAO) también pueden codificar sus protocolos en idiomas locales.

Cómo funciona el sistema Meta Megabyte

Megabyte, la arquitectura decodificadora multiescala, modela secuencias de más de 1 millón de bytes manteniendo la diferenciabilidad de extremo a extremo. Utiliza transformadores multiescala que incorporan diferentes niveles dentro de su arquitectura, modelando así tanto patrones globales como locales en los datos.

Básicamente, el modelo Megabyte consta de tres componentes, a saber, un módulo local, un emisor de parches y un módulo global (transformador global). El módulo local, también llamado transformador local, predice los bytes dentro de cada parche, mientras que el emisor se encarga de codificar los parches combinando las incrustaciones de bytes. Por último, el módulo global, también conocido como transformador global, ingresa y devuelve las diversas representaciones de parches.

El siguiente diagrama muestra una descripción general de megabytes.

El diagrama anterior muestra algunos de los componentes clave de Megabyte. Un experimento reciente mostró que Megabyte puede ser un 40% más rápido que el modelo Transformer. Sin embargo, es esencial tener en cuenta que el Megabyte utilizado durante el experimento tenía 1,500 millones de parámetros, mientras que el transformador tenía 350 millones.

En general, el Megabyte tiene varias ventajas sobre los transformadores tradicionales. Por ejemplo, reduce los costos computacionales de la autoconfirmación, lo que permite manejar secuencias largas.

En segundo lugar, utiliza capas de avance de alimentación por ruta en lugar de por posición, lo que resulta en la utilización eficiente de recursos computacionales.

Además, mejora una mayor paralelismo durante el procesamiento, lo que conduce a una generación de secuencia más rápida mientras se mantiene un alto rendimiento.

La arquitectura Megabyte mejora la escalabilidad, reduce el consumo de recursos y permite una comunicación fluida con varias aplicaciones basadas en GPT. Logra algunos de estos beneficios dividiendo secuencias largas en dos secuencias más cortas, lo que minimiza los costos de autoatención. Además, el uso compartido de parámetros y los algoritmos de compresión minimizan los requisitos de recursos de los GPTs.

Conclusión

Megabyte de Meta utiliza el sistema generativo pre-entrenado de transformadores para procesar grandes volúmenes de datos sin usar la tokenización. En cambio, utiliza una arquitectura de predicción de varias capas que minimiza los costos, mejora la velocidad, aumenta la eficiencia, así como la escalabilidad y la interoperabilidad.


Autor:Mashell C., Investigador de Gate.io
Este artículo representa solo las opiniones del investigador y no constituye ninguna sugerencia de inversión.
Gate.io se reserva todos los derechos sobre este artículo. Se permitirá volver a publicar el artículo siempre Gate.io se haga referencia a él. En todos los casos, se emprenderán acciones legales por infracción de derechos de autor.


Compartir
Contenu
gate logo
Operar ahora
Únase a Gate.io y gane recompensas