Huang Renxun habla con los siete autores del artículo de Transformer: estamos atrapados en el modelo original y necesitamos una nueva arquitectura más poderosa

![Huang Renxun habla con los siete autores del artículo de Transformer: Estamos atrapados en el modelo original y necesitamos una nueva arquitectura más poderosa](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ 3209736c2376bc78f33a30e387cc4e77.jpeg)

Autor: Guo Xiaojing

Fuente: Noticias Tencent

En 2017, se publicó un artículo histórico, "La atención es todo lo que necesitas", que introdujo por primera vez el modelo Transformer basado en el mecanismo de autoatención. Esta arquitectura innovadora eliminó las limitaciones de las RNN y CNN tradicionales. Mecanismo de atención del procesamiento paralelo, el problema de la dependencia de larga distancia se supera de manera efectiva y la velocidad del procesamiento de datos de secuencia mejora significativamente. La estructura codificador-decodificador de Transformer y el mecanismo de atención de múltiples cabezales han provocado una tormenta en el campo de la inteligencia artificial. El popular ChatGPT se basa en esta arquitectura.

Imagina que el modelo Transformer es como tu cerebro hablando con un amigo, prestando atención a cada palabra que la otra persona dice al mismo tiempo y entendiendo las conexiones entre esas palabras. Proporciona a las computadoras capacidades de comprensión del lenguaje similares a las de los humanos. Antes de esto, RNN era el método principal para procesar el lenguaje, pero su velocidad de procesamiento de información era lenta, como un reproductor de cintas antiguo que tenía que reproducirse palabra por palabra. El modelo Transformer es como un DJ eficiente, capaz de controlar múltiples pistas al mismo tiempo y capturar rápidamente información clave.

La aparición del modelo Transformer ha mejorado enormemente la capacidad de las computadoras para procesar el lenguaje, haciendo que tareas como la traducción automática, el reconocimiento de voz y el resumen de texto sean más eficientes y precisos. Este es un gran salto para toda la industria.

Esta innovación fue el resultado de los esfuerzos conjuntos de ocho científicos de inteligencia artificial que anteriormente trabajaron en Google. Su objetivo inicial era simple: mejorar el servicio de traducción automática de Google. Quieren que las máquinas puedan comprender y leer completamente oraciones enteras, en lugar de traducirlas palabra por palabra de forma aislada. Este concepto se convirtió en el punto de partida de la arquitectura "Transformer": el mecanismo de "autoatención". Sobre esta base, estos ocho autores utilizaron sus respectivas experiencias y publicaron el artículo "La atención es todo lo que necesita" en diciembre de 2017, describiendo en detalle la arquitectura Transformer y abriendo un nuevo capítulo en la IA generativa.

En el mundo de la IA generativa, la ley de escala es un principio fundamental. En resumen, a medida que aumenta la escala del modelo Transformer, su rendimiento también aumenta, pero esto también significa que se necesitan recursos informáticos más potentes para admitir modelos más grandes y redes más profundas, y se requieren servicios informáticos de alto rendimiento. NVIDIA también se ha convertido en un jugador clave en esta ola de IA.

En la conferencia GTC de este año, Jen-Hsun Huang de Nvidia invitó a los siete autores de Transformer (Niki Parmar no pudo asistir temporalmente por alguna razón) a participar en una mesa redonda de manera ceremonial. Esta fue la primera vez que los siete autores discutir su trabajo en público Aparición grupal.

También hicieron algunos puntos impresionantes durante la conversación:

  • El mundo necesita algo mejor que Transformer, y creo que todos los que estamos aquí esperamos que sea reemplazado por algo que nos lleve a un nuevo nivel de rendimiento.
  • No logramos nuestro objetivo original. Nuestra intención original al iniciar Transformer era simular el proceso de evolución de Token. No es sólo un proceso de generación lineal, sino una evolución paso a paso de texto o código.
  • Problemas simples como 2+2, que pueden utilizar billones de recursos de parámetros de modelos grandes. Creo que la computación adaptativa es una de las próximas cosas que deben suceder, donde sepamos cuántos recursos informáticos se deben gastar en un problema en particular.
  • Creo que el modelo actual es demasiado asequible y demasiado pequeño. El precio de alrededor de un millón de dólares es 100 veces más barato que salir a comprar un libro de bolsillo.

El siguiente es el contenido real:

Jensen Huang: En los últimos sesenta años, la tecnología informática no parece haber experimentado cambios fundamentales, al menos desde el momento en que nací. Los sistemas informáticos que utilizamos actualmente, ya sea multitarea, separación de hardware y software, compatibilidad de software, capacidades de copia de seguridad de datos y las habilidades de programación de los ingenieros de software, se basan básicamente en los principios de diseño de IBM 360: procesador central, bio. subsistema, multitarea, hardware y software, compatibilidad del sistema de software, etc.

No creo que la informática moderna haya cambiado fundamentalmente desde 1964. Aunque en las décadas de 1980 y 1990, las computadoras sufrieron una transformación importante hasta alcanzar la forma que conocemos hoy. Pero a medida que pasa el tiempo, el costo marginal de las computadoras continúa disminuyendo, reduciéndose diez veces cada diez años, mil veces en quince años y diez mil veces en veinte años. En esta revolución informática, la reducción de costos fue tan grande que en dos décadas, el costo de las computadoras se redujo casi 10.000 veces. Este cambio trajo un enorme poder a la sociedad.

Intenta imaginar si todos los artículos caros de tu vida se redujeran a una diezmilésima parte de su valor original. Por ejemplo, el coche que compraste por 200.000 dólares hace veinte años ahora sólo cuesta 1 dólar. ¿Te imaginas el cambio? Sin embargo, la disminución de los costos de las computadoras no se produjo de la noche a la mañana, sino que gradualmente alcanzó un punto crítico, y luego la tendencia a la disminución de los costos se detuvo repentinamente y continuó mejorando un poco cada año, pero el ritmo de cambio se estancó.

Comenzamos a explorar la computación acelerada, pero usar la computación acelerada no es fácil, es necesario diseñarla poco a poco desde cero. En el pasado, podríamos haber seguido pasos establecidos para resolver un problema paso a paso, pero ahora necesitamos rediseñar esos pasos. Este es un campo de la ciencia completamente nuevo, reformulando las reglas anteriores en algoritmos paralelos.

Reconocemos esto y creemos que si podemos acelerar incluso el 1% del código y ahorrar el 99% del tiempo de ejecución, habrá aplicaciones que se beneficiarán de ello. Nuestro objetivo es hacer posible lo imposible, o hacer imposible lo posible, o hacer más eficientes las cosas que ya son posibles: de eso se trata la computación acelerada.

Si analizamos la historia de la empresa, vemos nuestra capacidad para acelerar una variedad de aplicaciones. Inicialmente, logramos una aceleración significativa en el campo de los juegos, tan efectiva que la gente pensó erróneamente que éramos una empresa de juegos. Pero, de hecho, nuestro objetivo es mucho más que eso, porque este mercado es enorme y lo suficientemente grande como para impulsar un progreso tecnológico increíble. Esta situación no es común, pero encontramos un caso especial.

Para resumir, en 2012, AlexNet encendió una chispa, que fue la primera colisión entre la inteligencia artificial y las GPU de NVIDIA. Esto marca el comienzo de nuestro increíble viaje en este campo. Unos años más tarde, descubrimos un escenario de aplicación perfecto que sentó las bases de lo que somos hoy.

En resumen, estos logros sientan las bases para el desarrollo de la inteligencia artificial generativa. La IA generativa no solo puede reconocer imágenes, sino también convertir texto en imágenes e incluso crear contenido nuevo. Ahora tenemos suficiente capacidad técnica para comprender los píxeles, identificarlos y comprender el significado que hay detrás de ellos. A través del significado detrás de estos, podemos crear contenido nuevo. La capacidad de la inteligencia artificial para comprender el significado de los datos es un gran cambio.

Tenemos razones para creer que este es el comienzo de una nueva revolución industrial. En esta revolución, estamos creando algo que nunca antes se había hecho. Por ejemplo, en la anterior revolución industrial el agua era una fuente de energía, y el agua entraba en los dispositivos que creábamos, y los generadores empezaban a funcionar, entraba agua y salía electricidad, como por arte de magia.

La IA generativa es un "software" completamente nuevo que puede crear software y depende de los esfuerzos conjuntos de muchos científicos. Imagine que le da materias primas a la IA (datos) y estos ingresan a un "edificio", una máquina que llamamos GPU, y que puede generar resultados mágicos. Está remodelando todo y estamos presenciando el nacimiento de las “fábricas de IA”.

Este cambio se puede llamar una nueva revolución industrial. Nunca habíamos experimentado un cambio como este en el pasado, pero ahora se está desarrollando lentamente ante nosotros. No se pierdan los próximos diez años, porque en estos diez años crearemos una enorme productividad. El péndulo del tiempo se ha puesto en movimiento y nuestros investigadores ya están tomando medidas.

Hoy invitamos a los creadores de Tansformer a discutir hacia dónde nos llevará la IA generativa en el futuro.

ellos son:

Ashish Vaswani: Se unió al equipo de Google Brain en 2016. En abril de 2022, cofundó Adept AI con Niki Parmar, dejó la empresa en diciembre del mismo año y cofundó otra startup de inteligencia artificial, Essential AI.

Niki Parmar: trabajó en Google Brain durante cuatro años antes de cofundar Adept AI y Essential AI con Ashish Vaswani.

Jakob Uszkoreit: Trabajó en Google de 2008 a 2021. Dejó Google en 2021 y cofundó Inceived. El negocio principal de la compañía son las ciencias biológicas de inteligencia artificial y está comprometida con el uso de redes neuronales y experimentos de alto rendimiento para diseñar la próxima generación de moléculas de ARN.

Illia Polosukhin: Se unió a Google en 2014 y fue una de las primeras personas en abandonar el equipo de ocho personas. En 2017, cofundó la empresa blockchain NEAR Protocol.

Noam Shazeer: trabajó en Google de 2000 a 2009 y de 2012 a 2021. En 2021, Shazeer dejó Google y cofundó Character.AI con el ex ingeniero de Google Daniel De Freitas.

**Llion Jones: **Trabajó en Delcam y YouTube. Se unió a Google en 2012 como ingeniero de software. Más tarde dejó Google y fundó la startup de inteligencia artificial sakana.ai.

Lukasz Kaiser: Ex investigador del Centro Nacional Francés de Investigación Científica. Se unió a Google en 2013. En 2021 dejó Google y se convirtió en investigador en OpenAI.

Aidan Gómez: se graduó de la Universidad de Toronto, Canadá. Cuando se publicó el artículo de Transformer, todavía era pasante en el equipo de Google Brain. Es la segunda persona del equipo de ocho personas que abandona Google. En 2019 cofundó Cohere.

![Huang Renxun habla con los siete autores del artículo de Transformer: Estamos atrapados en el modelo original y necesitamos una nueva arquitectura más poderosa](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ e2cb0168e261ffba0c0ea67a5502acf8.png)

Renxun Huang: Mientras estoy sentado aquí hoy, esfuércese activamente por tener la oportunidad de hablar. No hay ningún tema que no pueda discutirse aquí. Incluso puede saltar de su silla para discutir los temas. Comencemos con la pregunta más básica: ¿qué problemas encontraste en ese momento y qué te inspiró a convertirte en Transformer?

Illia Polosukhin: Si desea lanzar modelos que realmente puedan leer los resultados de búsqueda, como procesar montones de documentos, necesita algunos modelos que puedan procesar esta información rápidamente. La red neuronal recurrente (RNN) en ese momento no podía satisfacer tales necesidades.

De hecho, aunque las redes neuronales recurrentes (RNN) y algunos mecanismos de atención preliminar (Arnens) llamaron la atención en ese momento, todavía requerían lectura palabra por palabra, lo cual no era eficiente.

Jakob Uszkoreit: La velocidad a la que generamos datos de entrenamiento supera con creces nuestra capacidad para entrenar arquitecturas de última generación. De hecho, utilizamos arquitecturas más simples, como redes de retroalimentación con n-gramas como características de entrada. Estas arquitecturas a menudo superan a los modelos más complejos y avanzados porque entrenan más rápido, al menos con grandes cantidades de datos de entrenamiento a escala de Google.

En ese momento ya existían RNN potentes, especialmente redes de memoria a corto plazo (LSTM).

Noam Shazeer: Parece que este es un tema candente. Comenzamos a notar estas leyes de escala alrededor de 2015, y se puede ver que a medida que aumenta el tamaño del modelo, también aumenta su inteligencia. Es como el mejor problema en la historia del mundo, es muy simple: simplemente estás prediciendo el próximo token, y será tan inteligente y capaz de hacer un millón de cosas diferentes, y solo quieres escalarlo y hacerlo mejor.

Una gran frustración es que RNN es demasiado problemático de manejar. Y luego escuché a estos tipos decir, oye, reemplacemos esto con una convolución o un mecanismo de atención. Pensé, genial, hagamos esto. Me gusta comparar el Transformer con el salto de las máquinas de vapor a los motores de combustión interna. Podríamos haber completado la revolución industrial con máquinas de vapor, pero eso habría sido doloroso, y el motor de combustión interna mejoró todo.

Ashish Vaswani: Empecé a aprender algunas lecciones difíciles durante mis años de posgrado, especialmente cuando trabajaba en traducción automática. Me di cuenta, oye, no voy a aprender esas complicadas reglas del lenguaje. Creo que Gradient Descent, la forma en que entrenamos estos modelos, es mejor maestro que yo. Así que no voy a aprender las reglas, simplemente dejaré que Gradient Descent haga todo el trabajo por mí, y esa es mi segunda lección.

Lo que aprendí por las malas es que las arquitecturas generales que pueden escalarse finalmente triunfarán a largo plazo. Hoy podrían ser tokens, mañana podrían ser acciones que realicemos en las computadoras, que comenzarán a imitar nuestras actividades y podrán automatizar gran parte del trabajo que hacemos. Como comentamos, Transformer, especialmente su mecanismo de autoatención, tiene una aplicabilidad muy amplia y también mejora el descenso de gradientes. La otra cosa es física, porque una cosa que aprendí de Noam es que la multiplicación de matrices es una buena idea.

Noam Shazeer: Este patrón sigue repitiéndose. Entonces, cada vez que agregas un montón de reglas, el descenso de gradiente termina siendo mejor que tú para aprender esas reglas. Eso es todo. Al igual que el aprendizaje profundo que hemos estado haciendo, estamos construyendo un modelo de IA con forma de GPU. Y ahora estamos construyendo un modelo de IA con forma de supercomputadora. Sí, las supercomputadoras son el modelo ahora. Sí, es cierto. Sí. Supercomputadora Sólo para informarle que estamos construyendo una supercomputadora con la forma del modelo.

** Jen-Hsun Huang: Entonces, ¿qué problema estás tratando de resolver? **

Lukasz Kaiser: traducción automática. Pensando en retrospectiva, hace cinco años, este proceso parecía muy difícil: había que recopilar datos, tal vez traducirlos, y el resultado podía ser sólo marginalmente correcto. El nivel en ese momento todavía era muy básico. Pero ahora estos modelos pueden aprender a traducir incluso sin datos. Simplemente proporciona un idioma y otro idioma, y el modelo aprende a traducir por sí solo, y la habilidad surge de forma natural y satisfactoria.

Llion Jones: Pero la intuición de "Atención" es todo lo que necesitas. Entonces se me ocurrió el título y básicamente lo que pasó fue cuando estábamos buscando un título.

Estábamos simplemente haciendo ablación y comenzamos a tirar pedazos del modelo solo para ver si empeoraba. Para nuestra sorpresa, empezó a mejorar. Es mucho mejor incluir el descarte de todas las circunvoluciones de esta manera. De ahí viene el título.

Ashish Vaswani: Básicamente, lo interesante es que comenzamos con un marco muy básico y luego agregamos cosas, agregamos convoluciones y luego supongo que las eliminamos. También hay muchas otras cosas muy importantes como la atención multicabezal.

** Jensen Huang: ¿A quién se le ocurrió el nombre Transformer? ¿Por qué se llama Transformador? **

Jakob Uszkoreit: Nos gusta este nombre. Lo elegimos al azar y nos pareció muy creativo. Cambió nuestro modelo de producción de datos y utilizó esa lógica. Todo aprendizaje automático es un transformador y un disruptor.

Noam Shazeer: No habíamos pensado en este nombre antes. Creo que este nombre es muy simple y mucha gente piensa que es muy bueno. Pensé en muchos nombres antes, como Yaakov, y finalmente me decidí por "Transformer", que describe el principio del modelo. En realidad, transforma toda la señal. De acuerdo con esta lógica, casi todo el aprendizaje automático se transformará.

Llion Jones: La razón por la que Transformer se ha convertido en un nombre tan familiar no es sólo por el contenido de la traducción, sino también porque queríamos describir esta transformación de una manera más general. No creo que hayamos hecho un gran trabajo, pero como creador de cambios, como conductor y motor, tenía sentido. Todos pueden comprender un modelo de lenguaje, un motor y una lógica tan grandes. Desde una perspectiva arquitectónica, este es un período de inicio relativamente temprano.

Pero nos dimos cuenta de que en realidad estábamos intentando crear algo que fuera muy, muy versátil y que realmente pudiera convertir cualquier cosa en cualquier otra cosa. Y no creo que predijeramos qué tan bueno sería esto cuando se usaran Transformers para las imágenes, lo cual es un poco sorprendente. Esto puede parecerles lógico, pero en realidad, pueden dividir la imagen y etiquetar cada pequeño punto, ¿verdad? Creo que esto fue algo que existió muy temprano en la arquitectura.

Entonces, cuando estábamos construyendo bibliotecas de tensor a tensor, en lo que realmente nos enfocamos fue en ampliar el entrenamiento autorregresivo. No se trata sólo del lenguaje, sino también de la imagen y los componentes de audio.

Entonces Lukasz dijo que lo que estaba haciendo era traducir. Creo que se subestimó a sí mismo, y todas estas ideas, ahora estamos empezando a ver estos patrones unirse, todos se suman al modelo.

Pero en realidad, todo estaba ahí desde el principio y las ideas se están filtrando y lleva algo de tiempo. El objetivo de Lukasz es que tengamos todos estos conjuntos de datos académicos que vayan de imagen a texto, de texto a imagen, de audio a texto, de texto a texto. Deberíamos entrenar para todo.

Esta idea realmente impulsó el trabajo de extensión y finalmente funcionó, y fue tan interesante que pudimos traducir imágenes a texto, texto a imágenes y texto a texto.

Lo estás usando para estudiar biología, o software biológico, que podría ser similar al software de computadora en el sentido de que comienza como un programa y luego lo compilas en algo que puede ejecutarse en una GPU.

La vida de un software biológico comienza con la especificación de ciertos comportamientos. Digamos que quieres imprimir una proteína, como una proteína específica en una célula. Y luego aprendiste cómo usar el aprendizaje profundo para convertir eso en una molécula de ARN, pero en realidad exhibes estos comportamientos una vez que ingresa a tus células. Así que la idea no es sólo traducir al inglés.

**Jensen Huang: ¿Creaste un laboratorio grande para producir todo esto? **

Aidan Gomez: Hay mucho disponible y, de hecho, permanece disponible públicamente porque estos datos a menudo todavía reciben financiación pública en gran medida. Pero en realidad, todavía necesitas datos para ilustrar claramente el fenómeno que intentas lograr.

Tratar de modelar dentro de un producto determinado, digamos expresión de proteínas y vacunas de ARNm y cosas así, o sí, en Palo Alto tenemos un grupo de robots y personas con batas de laboratorio, ambos personal de investigación en formación, incluidos ex biólogos.

Ahora nos consideramos pioneros de algo nuevo y trabajamos para crear estos datos y validar los modelos que diseñan estas moléculas. Pero la idea original era traducir.

** Jen-Hsun Huang: La idea original era la traducción automática. Lo que quiero preguntar es: ¿cuáles son los nodos clave que se ven en el fortalecimiento y avance de la arquitectura? ¿Y qué impacto tienen en el diseño de Transformer? **

Aidan Gomez: A lo largo del camino, todos lo habéis visto. ¿Crees que realmente hay una gran contribución adicional además del diseño básico de Transformer? Creo que desde el punto de vista de la inferencia, se ha trabajado mucho para acelerar estos modelos y hacerlos más eficientes.

Sigo pensando que es un poco perturbador para mí por lo similares que eran nuestras formas originales. Creo que el mundo necesita algo mejor que Transformer, y creo que todos los que estamos aquí queremos que sea reemplazado por algo que nos lleve a un nuevo nivel de rendimiento.

Quiero hacerles una pregunta a todos los presentes. ¿Que crees que pasará después? Es un paso emocionante porque creo que es muy similar a cosas de hace 6 o 7 años, ¿verdad?

Llion Jones: Sí, creo que la gente se sorprendería de lo similares que dices que son, ¿verdad? A la gente le gusta preguntarme qué pasará después porque soy el autor de este artículo. Como por arte de magia, agitas la varita mágica y ¿qué pasa después? Lo que quiero señalar es cómo se diseñó este principio específico. No sólo necesitamos ser mejores, sino que debemos ser demostrablemente mejores.

Porque si es un poco mejor, entonces eso no es suficiente para impulsar a toda la industria de la IA hacia algo nuevo. Así que nos quedamos con el modelo original, aunque técnicamente probablemente no sea lo más poderoso que tenemos en este momento.

Pero todo el mundo sabe qué tipo de herramientas personales quiere: quiere mejores ventanas contextuales, quiere tener la capacidad de generar tokens más rápido. Bueno, no estoy seguro de que te guste esta respuesta, pero en este momento están usando demasiados recursos informáticos. Creo que la gente hace muchos cálculos en vano. Estamos trabajando duro para mejorar la eficiencia, gracias.

** Jensen Huang: Creo que estamos haciendo esto más efectivo, ¡gracias! **

Jakob Uszkoreit: Pero creo que se trata principalmente de cómo se distribuyen los recursos, más que de cuántos recursos se consumen en total. Por ejemplo, no queremos gastar demasiado dinero en un problema fácil, o gastar muy poco en un problema demasiado difícil y terminar sin obtener una solución.

Illiya Polosukhin: Este ejemplo es como 2+2, si lo introduces correctamente en este modelo, utiliza un billón de parámetros. Así que creo que la computación adaptativa es una de las cosas que viene a continuación, donde sabemos cuántos recursos informáticos se deben gastar en un problema en particular.

Aidan Gómez: Sabemos cuántas capacidades de generación de computadoras tenemos actualmente. Creo que este es el tema en el que debemos centrarnos a continuación. Creo que este es un cambio a nivel cósmico y esta es también la tendencia de desarrollo futuro.

Lukasz Kaiser: Este concepto existía antes de Transformer y se integró en el modelo Transformer. De hecho, no estoy seguro de que todos aquí sepan que no logramos nuestro objetivo original. Nuestra intención original al iniciar este proyecto era simular el proceso de evolución de Token. No es sólo un proceso de generación lineal, sino una evolución paso a paso de texto o código. Repetimos, editamos, lo que nos permite no solo imitar cómo los humanos desarrollan textos, sino también usarlos como parte de ese proceso. Porque si pudieras generar contenido con tanta naturalidad como lo hacen los humanos, ellos realmente podrían brindar retroalimentación, ¿verdad?

Todos habíamos leído el artículo de Shannon y nuestra idea original era centrarnos únicamente en el modelado del lenguaje y la perplejidad, pero eso no sucedió. Creo que aquí es también donde podemos desarrollarnos más. También se trata de cómo organizamos ahora los recursos informáticos de forma inteligente, y esta organización ahora también se aplica al procesamiento de imágenes. Quiero decir, los modelos de difusión tienen la interesante propiedad de poder refinar y mejorar continuamente su calidad mediante la iteración. Y actualmente no tenemos tales capacidades.

Quiero decir, esta pregunta fundamental: ¿Qué conocimiento debería incorporarse al modelo y qué conocimiento debería estar fuera del modelo? ¿Estás utilizando un modelo de recuperación? El modelo RAG (Retri-Augmented Generation) es un ejemplo. Asimismo, esto implica también la cuestión de la inferencia, es decir, qué tareas de inferencia deberían realizarse externamente a través de sistemas simbólicos y qué tareas de inferencia deberían realizarse directamente dentro del modelo. Esta es en gran medida una discusión sobre eficiencia. Creo que los modelos grandes eventualmente aprenderán a hacer cálculos como 2+2, pero si quieres calcular 2+2 y hacerlo sumando números, eso es obviamente ineficiente.

** Jen-Hsun Huang: Si la IA solo necesita calcular 2+2, entonces debería usar la calculadora directamente para completar esta tarea con la menor cantidad de energía, porque sabemos que la calculadora es la herramienta más efectiva para haciendo cálculos 2+2. Sin embargo, si alguien le pregunta a la IA, ¿cómo llegó a la decisión 2+2? ¿Sabías que 2+2 es la respuesta correcta? ¿Esto consumirá muchos recursos? **

![Huang Renxun habla con los siete autores del artículo de Transformer: Estamos atrapados en el modelo original y necesitamos una nueva arquitectura más poderosa](https://cdn-img.panewslab.com//panews/2022/3/23 /images/ 943398d349cf0e17db81b1469281b267.png)

Noam Shazeer: Exactamente. Mencionaste un ejemplo antes, pero también estoy convencido de que los sistemas de inteligencia artificial que todos aquí desarrollan son lo suficientemente inteligentes como para usar calculadoras activamente.

Los bienes públicos globales (GPP) actualmente hacen precisamente eso. Creo que el modelo actual es demasiado asequible y demasiado pequeño. La razón por la que es barato es por tecnología como NV, gracias a su rendimiento.

El costo computacional por operación es de aproximadamente $10 a $18. En otras palabras, aproximadamente en este orden de magnitud. Gracias por crear tantos recursos informáticos. Pero si nos fijamos en un modelo con 500 mil millones de parámetros y un billón de cálculos por token, eso equivale aproximadamente a un dólar por millón de tokens, lo cual es 100 veces más barato que salir, comprar un libro de bolsillo y leerlo. Nuestra aplicación es un millón de veces o más valiosa que la computación eficiente en redes neuronales gigantes. Quiero decir, ciertamente son más valiosos que algo como curar el cáncer, pero es más que eso.

Ashish Vaswani: Creo que hacer que el mundo sea más inteligente significa cómo obtener retroalimentación del mundo y si podemos lograr una paralelización multitarea y multilínea. Si realmente desea construir un modelo de este tipo, esta es una excelente manera de ayudarnos a diseñarlo.

** Jensen Huang: ¿Puedes compartirnos rápidamente por qué empezaste tu empresa? **

Ashish Vaswani: En nuestra empresa, nuestro objetivo es construir modelos y resolver nuevas tareas. Nuestro trabajo es comprender los objetivos y el contenido de la tarea y adaptar esos contenidos para satisfacer las necesidades del cliente. De hecho, a partir de 2021, encuentro que el mayor problema con los modelos es que no se pueden simplemente hacer que los modelos sean más inteligentes, sino que también es necesario encontrar a las personas adecuadas para interpretarlos. Esperamos entrelazar el mundo y el modelo, haciendo que el modelo sea más grande y más destacado. Se requiere una cierta cantidad de progreso en el proceso de aprendizaje que no se puede lograr inicialmente en el ambiente de vacío de un laboratorio.

Noam Shazeer: En 2021, cofundamos esta empresa. Tenemos una tecnología excelente, pero no llega a mucha gente. Imagínese, si fuera un paciente al escucharle decir esto, pensaría que hay decenas de miles de millones de personas con diferentes tareas que deben completar. De esto se trata el aprendizaje profundo, mejoramos la tecnología a través de la comparación. De hecho, debido al continuo desarrollo de la tecnología, impulsado por Jensen Huang, nuestro objetivo final es ayudar a personas de todo el mundo. Hay que realizar pruebas y ahora necesitamos desarrollar soluciones más rápidas que permitan a cientos de personas utilizar estas aplicaciones. Inicialmente, no todos usaban estas aplicaciones, mucha gente las usaba solo por diversión, pero funcionaron, funcionaron.

Jakob Uszkoreit: Gracias. Quiero hablar sobre el sistema de software ecológico que creamos. En 2021 cofundé esta empresa y nuestro objetivo es resolver algunos problemas con impacto científico real. En el pasado, tratábamos con contenidos bastante complejos. Pero cuando tuve mi primer hijo, mi forma de ver el mundo cambió. Esperamos hacer la vida humana más cómoda y contribuir a la investigación de proteínas. Especialmente después de tener hijos, espero cambiar la estructura médica existente y espero que el desarrollo de la ciencia y la tecnología pueda tener un impacto positivo en la supervivencia y el desarrollo humanos. Por ejemplo, la estructura y la deconstrucción de las proteínas se han visto afectadas hasta cierto punto, pero actualmente carecemos de datos. Debemos basar nuestros esfuerzos en los datos, no sólo como deber sino como padre.

** Jen-Hsun Huang: Me gusta tu punto de vista. Siempre estoy interesado en el diseño de nuevos medicamentos y en el proceso de permitir que las computadoras aprendan a desarrollar y generar nuevos medicamentos. Si se pudieran aprender y diseñar nuevos medicamentos, y un laboratorio pudiera probarlos, sería posible determinar si ese modelo funcionaría. **

Llion JonesLlion Jones: Sí, soy el último en compartirlo. La empresa que cofundamos se llama Sakana AI, que significa "pez". La razón por la que nombramos a nuestra empresa con el nombre del "pez" japonés es porque somos como un banco de peces, lo que naturalmente nos inspira a encontrar inteligencia. Si podemos combinar muchos de los elementos examinados, podemos crear algo complejo y hermoso. Es posible que muchos no comprendan los detalles del proceso y el contenido, pero nuestra filosofía central interna es "Aprender siempre gana".

Ya sea que quieras resolver un problema o aprender algo, aprender siempre te ayudará a ganar. En el proceso de IA generativa, el contenido de aprendizaje también nos ayudará a ganar. Como investigador presente, me gustaría recordarles a todos que damos un significado real a los modelos de IA por computadora, para que realmente puedan ayudarnos a comprender los misterios del universo. De hecho, también quería comentarles que estamos a punto de anunciar un nuevo desarrollo que nos entusiasma mucho. Si bien ahora contamos con un cuerpo de investigación como base, estamos experimentando un desarrollo transformador donde la gestión del modelo actual está organizada y permite que las personas participen verdaderamente. Hacemos que estos modelos sean más factibles, utilizando estos grandes modelos y modelos transformadores para cambiar la forma en que las personas entienden el mundo y el universo. este es nuestro objetivo.

Aidan Gomez: Mi intención original de iniciar la empresa era similar a la de Noam Shazeer. Creo que la informática está entrando en un nuevo paradigma que está cambiando los productos existentes y la forma en que trabajamos. Todo está basado en computadora y, hasta cierto punto, cambia dentro de la tecnología. ¿Cuál es nuestro papel? En realidad estoy cerrando la brecha, cerrando el abismo. Podemos ver diferentes empresas creando este tipo de plataformas, permitiendo a cada empresa adaptar e integrar productos, lo cual es una forma de enfrentarse directamente a los usuarios. Así es como avanzamos en la tecnología y la hacemos más asequible y ubicua.

** Jensen Huang: Lo que aprecio particularmente es que cuando Noam Shazeer parece particularmente tranquilo, tú te ves muy emocionado. Las diferencias en sus personalidades son tan marcadas. Ahora le doy la palabra a Lukasz Kaiser. **

Lukasz Kaiser: Mi experiencia en OpenAI fue muy disruptiva. Es muy divertido en la empresa y analizamos muchos datos para hacer cálculos, pero al final del día, mi función sigue siendo la de analizador de datos.

Illiya Polosukhin: Fui el primero en irme. Creo firmemente que lograremos avances significativos y que el software cambiará el mundo entero. La forma más directa es enseñar a las máquinas a escribir código y hacer que la programación sea accesible para todos.

En NEAR, aunque nuestro progreso es limitado, estamos comprometidos a integrar la sabiduría humana y obtener datos relevantes, como inspirar aún más a las personas a darse cuenta de que necesitamos una metodología básica. Este modelo es un desarrollo fundamental. Este gran modelo se utiliza ampliamente en todo el mundo. Tiene muchas aplicaciones en el sector aeroespacial y otros campos. Está relacionado con la comunicación y la interacción en diversos campos y, de hecho, nos proporciona capacidades. Con la profundización del uso, descubrimos que trajo más modelos y actualmente no hay muchas disputas sobre derechos de autor.

Ahora estamos en una nueva era generativa, una era que celebra la innovación y los innovadores, y queremos participar activamente y aceptar el cambio, por lo que buscamos diferentes formas de ayudar a construir un modelo realmente genial.

** Jensen Huang: Este sistema de retroalimentación positiva es muy beneficioso para nuestra economía en general. Ahora somos más capaces de diseñar nuestra economía. Alguien preguntó, en esta era en la que los modelos GPT están entrenando miles de millones de bases de datos a escala de tokens, ¿cuál es el siguiente paso? ¿Cuál será la nueva tecnología de modelado? ¿Qué quieres explorar? ¿Cuál es su fuente de datos? **

Illia Polosukhin: Nuestro punto de partida son los vectores y los desplazamientos. Necesitamos modelos que tengan un valor económico real, que la gente pueda evaluar y, en última instancia, poner en práctica sus técnicas y herramientas para mejorar todo el modelo.

** Jen-Hsun Huang: ¿Cómo se entrena el modelo con dominio? ¿Cuáles fueron las interacciones iniciales y los patrones de interacción? ¿Es comunicación e interacción entre modelos? ¿O existen modelos y técnicas generativos? **

Illia Polosukhin: En nuestro equipo cada uno tiene sus propios conocimientos técnicos.

Jakob Uszkoreit: El siguiente paso es razonar. Todos reconocemos la importancia del razonamiento, pero gran parte del trabajo todavía lo realizan manualmente los ingenieros. De hecho, les estamos enseñando a responder en un formato interactivo de preguntas y respuestas, y queremos que comprendan por qué juntos y proporcionen juntos un patrón de razonamiento sólido. Esperamos que el modelo pueda generar el contenido que queremos, y este método de generación es lo que estamos siguiendo. Ya sea vídeo, texto o información 3D, todos deberían estar integrados.

Lukasz Kaiser: Creo que la gente entiende que la inferencia en realidad proviene de datos. Si empezamos a razonar, tenemos un conjunto de datos y pensamos por qué estos datos son diferentes. Luego aprenderemos que varias aplicaciones en realidad se basan en el proceso de razonamiento de datos. Gracias al poder de las computadoras, gracias a sistemas como este, podemos empezar a desarrollarnos más a partir de ahí. Podemos razonar sobre contenido relevante y realizar experimentos.

Muchas veces, estos se derivan de datos. Creo que la inferencia está evolucionando muy rápidamente, los modelos de datos son muy importantes y habrá más contenido interactivo en el futuro cercano. Aún no hemos realizado suficiente capacitación, no es el contenido ni el elemento clave, necesitamos desarrollar más los datos.

Noam Shazeer: Diseñar algunos datos, como diseñar una máquina de enseñanza, puede implicar cientos o cientos de millones de tokens diferentes.

Ashish Vaswani: Lo que quiero señalar es que en esta área tenemos muchos socios que han logrado algunos hitos. ¿Cuál es el mejor algoritmo automatizado? De hecho, se trata de dividir las tareas del mundo real en diferentes contenidos. Nuestro modelo también es muy importante, nos ayuda a obtener los datos y ver si están en el lugar correcto. Por un lado, nos ayuda a centrarnos en los datos; por otro lado, dichos datos nos proporcionan modelos de alta calidad para completar tareas abstractas. Por lo tanto, creemos que medir este progreso es también una forma de creatividad, una forma de desarrollo científico y una forma de desarrollo de nuestra automatización.

** Jen-Hsun Huang: No se pueden realizar grandes proyectos sin un buen sistema de medición. ¿Tienen alguna pregunta el uno para el otro? **

Illia Polosukhin: Nadie quiere saber realmente qué medidas tomaron. Pero, de hecho, esperamos comprender y explorar lo que estamos haciendo, obtener suficientes datos e información y hacer inferencias razonables. Por ejemplo, si tiene seis pasos, pero en realidad puede omitir uno razonando en cinco pasos. A veces no necesitas seis pasos y otras veces necesitas más pasos, entonces, ¿cómo replicas un escenario como este? ¿Qué necesitas para alejarte más de Token?

Lukasz Kaiser: Mi opinión personal es que reproducir un modelo tan grande es un proceso muy complicado. Los sistemas evolucionarán, pero esencialmente es necesario idear un método. Los seres humanos somos criaturas que son buenas para la recurrencia y, a lo largo de la historia de la humanidad, hemos reproducido repetidamente escenas exitosas.

** Jen-Hsun Huang: Estoy muy feliz de comunicarme con usted y espero que tengan la oportunidad de comunicarse entre sí y producir una magia indescriptible. Gracias por participar en este encuentro, ¡muchas gracias! **

Ver originales
  • Recompensa
  • Comentar
  • Compartir
Comentar
Sin comentarios