¡Desafía la hegemonía de Nvidia H100! IBM simula el chip de red neuronal artificial del cerebro humano, lo que mejora la eficiencia 14 veces y resuelve el problema de consumo de energía del modelo de IA.

Fuente original: Xinzhiyuan

Fuente de la imagen: Generada por IA ilimitada

Recientemente, IBM lanzó un nuevo chip de IA analógico de 14 nm, que es 14 veces más eficiente que la GPU líder, lo que puede hacer que H100 valga la pena.

Dirección del papel:

Actualmente, el mayor obstáculo en el desarrollo de la IA generativa es su asombroso consumo de energía. Los recursos necesarios para la IA no pueden crecer de forma sostenible.

IBM, por otro lado, ha estado investigando formas de remodelar la informática de IA. Uno de sus logros es el método de computación con memoria simulada/inteligencia artificial simulada, que puede reducir el consumo de energía utilizando las características clave de las redes neuronales que se ejecutan en cerebros biológicos.

Este enfoque minimiza el tiempo y el esfuerzo que dedicamos a la computación.

¿Está a punto de subvertirse el monopolio de Nvidia?

## El último plan de IBM para el futuro de la IA: los chips analógicos de IA son 14 veces más eficientes energéticamente

Según un informe del medio extranjero Insider, Dylan Patel, analista jefe de la empresa de investigación de semiconductores SemiAnalysis, analizó que el costo operativo diario de ChatGPT superó los 700.000 dólares estadounidenses.

ChatGPT requiere mucha potencia informática para generar respuestas basadas en las indicaciones del usuario. La mayoría de los costes se generan en servidores caros.

En el futuro, el coste de los modelos de formación y de la infraestructura operativa aumentará cada vez más.

IBM publicó en Nature que este nuevo chip puede reducir la presión de construir y operar empresas de IA generativa como Midjourney o GPT-4 al reducir el consumo de energía.

Estos chips analógicos están construidos de manera diferente a los chips digitales, que pueden manipular señales analógicas y comprender gradientes entre 0 y 1, pero solo para diferentes señales binarias.

Computación de memoria simulada/IA simulada

Y el nuevo enfoque de IBM es simular la computación en memoria, o simular la IA, para abreviar. Reduce el consumo de energía aprovechando una característica clave de las redes neuronales que operan en los cerebros biológicos.

En el cerebro de humanos y otros animales, la fuerza (o "peso") de las sinapsis determina la comunicación entre las neuronas.

Para los sistemas de IA analógicos, IBM almacena estos pesos sinápticos en los valores de conductancia de dispositivos de memoria resistiva a escala nanométrica (como la memoria de cambio de fase PCM) y utiliza las leyes de los circuitos para reducir la necesidad de enviar datos constantemente entre la memoria y procesador, realice la operación de multiplicación y acumulación (MAC), la operación principal en DNN.

Ahora, el H100 y el A100 de Nvidia impulsan muchas plataformas de IA generativa.

Sin embargo, si IBM repite el prototipo del chip y lo lanza con éxito al mercado masivo, este nuevo chip bien podría reemplazar a Nvidia como nuevo pilar.

Este chip de IA analógico de 14 nm puede codificar 35 millones de dispositivos de memoria de cambio de fase para cada componente y puede simular hasta 17 millones de parámetros.

Además, el chip imita la forma en que funciona el cerebro humano: el microchip realiza cálculos directamente en la memoria.

El sistema del chip puede lograr un reconocimiento y una transcripción de voz eficientes, con una precisión cercana a la del hardware digital.

Este chip logra aproximadamente 14 veces, y simulaciones anteriores muestran que la eficiencia energética de este hardware es incluso de 40 a 140 veces mayor que la de las GPU líderes en la actualidad.

Matriz de barras cruzadas PCM, programación y procesamiento de señales digitales

Esta revolución generativa de la IA acaba de comenzar. Las redes neuronales profundas (DNN) han revolucionado el campo de la IA y han ganado importancia con el desarrollo de modelos fundamentales y la IA generativa.

Sin embargo, ejecutar estos modelos en arquitecturas informáticas matemáticas tradicionales limita su rendimiento y eficiencia energética.

Si bien se han logrado avances en el desarrollo de hardware para la inferencia de IA, muchas de estas arquitecturas separan físicamente las unidades de memoria y procesamiento.

Esto significa que los modelos de IA normalmente se almacenan en ubicaciones de memoria discretas y las tareas informáticas requieren una mezcla constante de datos entre la memoria y las unidades de procesamiento. Este proceso puede ralentizar significativamente los cálculos, limitando la máxima eficiencia energética que se puede alcanzar.

Características de rendimiento de los dispositivos PCM, que utilizan configuración de fase y admitancia para almacenar pesos sinápticos de estilo analógico

El chip de aceleración de inteligencia artificial basado en memoria de cambio de fase (PCM) de IBM elimina esta limitación.

La memoria de cambio de fase (PCM) puede realizar la integración de cálculo y almacenamiento, y realizar directamente la multiplicación matriz-vector en la memoria, evitando el problema de la transmisión de datos.

Al mismo tiempo, el chip analógico de IA de IBM logra una aceleración eficiente del razonamiento de la inteligencia artificial a través de la integración de almacenamiento y computación a nivel de hardware, lo cual es un progreso importante en este campo.

Dos desafíos clave de la simulación de IA

Para hacer realidad el concepto de IA simulada, es necesario superar dos desafíos clave:

  1. La precisión computacional de la matriz de memoria debe ser comparable a la de los sistemas digitales existentes.

  2. La matriz de memoria puede interactuar perfectamente con otras unidades informáticas digitales y la estructura de comunicación digital en el chip analógico de inteligencia artificial.

IBM fabrica el chip acelerador de inteligencia artificial basado en memoria de cambio de fase en su centro tecnológico en Albany Nano.

El chip consta de 64 núcleos informáticos de memoria analógica y cada núcleo contiene 256 × 256 unidades sinápticas de banda cruzada.

Además, integrado en cada chip hay un conversor analógico a digital compacto basado en el tiempo para convertir entre el mundo analógico y digital.

La unidad de procesamiento digital liviana en el chip también puede realizar funciones simples de activación neuronal no lineal y operaciones de escala.

Cada núcleo puede considerarse como un mosaico que puede realizar la multiplicación de matrices por vectores y otras operaciones asociadas con una capa (como una capa convolucional) de un modelo de red neuronal profunda (DNN).

La matriz de peso se codifica en el valor de conductancia simulado del dispositivo PCM y se almacena en el chip.

Se integra una unidad de procesamiento digital global en el medio de la matriz central del chip para implementar algunas operaciones más complejas que la multiplicación de matriz-vector, lo cual es fundamental para ciertos tipos de ejecución de redes neuronales (como LSTM).

Las rutas de comunicación digital están integradas en el chip entre todos los núcleos y las unidades de procesamiento digital global para la transferencia de datos entre núcleos y entre núcleos y unidades globales.

a: instantánea de automatización de diseño electrónico y micrografía de chip, puede ver 64 núcleos y 5616 pads

b: Diagrama esquemático de los diferentes componentes del chip, incluidos 64 núcleos, 8 unidades de procesamiento digital global y enlaces de datos entre núcleos

c: Estructura de un único núcleo informático en memoria basado en PCM

d: La estructura de la unidad de procesamiento digital global para cálculos relacionados con LSTM

Utilizando el chip, IBM llevó a cabo un estudio exhaustivo sobre la precisión computacional de la computación con memoria analógica y logró una precisión del 92,81% en el conjunto de datos de imágenes CIFAR-10.

a: Estructura de red ResNet-9 para CIFAR-10

b: la forma de mapear esta red en el chip

c: precisión de la prueba CIFAR-10 implementada por hardware

Esta es la precisión más alta reportada hasta ahora para un chip que utiliza tecnología similar.

IBM también combina a la perfección la computación analógica en memoria con múltiples unidades de procesamiento digital y estructuras de comunicación digital.

La multiplicación de la matriz de entrada y salida de 8 bits del chip tiene un rendimiento de área unitaria de 400 GOPS/mm2, que es más de 15 veces mayor que los chips informáticos de memoria multinúcleo anteriores basados en memoria resistiva, al tiempo que logra una considerable eficiencia energética.

En la tarea de predicción de caracteres y la tarea de generación de anotaciones de imágenes, IBM comparó los resultados medidos en el hardware con otros métodos y demostró la estructura de la red, la programación del peso y los resultados de las mediciones de tareas relacionadas que se ejecutan en el chip de IA simulado.

Medidas LSTM para predicción de caracteres.

Mediciones de red LSTM para generación de anotaciones de imágenes

proceso de programación de peso

**¿El foso de Nvidia no tiene fondo? **

¿Es tan fácil romper el monopolio de Nvidia?

Naveen Rao es un emprendedor de neurociencia convertida en tecnología que intentó competir con Nvidia, el principal fabricante de inteligencia artificial del mundo.

"Todo el mundo está desarrollando en Nvidia", dijo Rao. "Si quieres lanzar nuevo hardware, tienes que ponerte al día y competir con Nvidia".

Rao trabajó en chips diseñados para reemplazar las GPU de Nvidia en una nueva empresa adquirida por Intel, pero después de dejar Intel, usó los chips de Nvidia en MosaicML, una nueva empresa de software que dirigió.

Rao dijo que Nvidia no solo abrió una gran brecha con otros productos en el chip, sino que también logró una diferenciación fuera del chip al crear una gran comunidad de programadores de IA.

Los programadores de IA han estado utilizando la tecnología de la empresa para innovar.

Durante más de una década, Nvidia ha construido un liderazgo casi inexpugnable en la producción de chips que pueden realizar tareas complejas de IA, como reconocimiento de imágenes, facial y de voz, así como generar texto para chatbots como ChatGPT.

El que alguna vez fue un advenedizo de la industria pudo lograr el dominio en la fabricación de chips de IA porque reconoció las tendencias en la IA desde el principio, construyó chips personalizados para esas tareas y desarrolló software crítico que facilitó el desarrollo de la IA.

Desde entonces, el cofundador y director ejecutivo de Nvidia, Jensen Huang, ha estado elevando el listón de Nvidia.

Esto convierte a Nvidia en un proveedor integral para el desarrollo de IA.

Si bien Google, Amazon, Meta, IBM y otros también fabrican chips de IA, Nvidia representa actualmente más del 70% de las ventas de chips de IA, según la firma de investigación Omdia.

En junio de este año, el valor de mercado de Nvidia había superado el billón de dólares, lo que la convertía en el fabricante de chips más valioso del mundo.

"Los clientes esperarán 18 meses para comprar sistemas Nvidia en lugar de comprar chips disponibles en el mercado de nuevas empresas u otros competidores. Es increíble", dijeron los analistas de FuturumGroup.

NVIDIA, remodelando los métodos informáticos

Jensen Huang cofundó Nvidia en 1993 y fabrica chips que representan imágenes en videojuegos. Los microprocesadores estándar de la época eran buenos para realizar cálculos complejos en secuencia, pero Nvidia fabricó GPU que podían manejar múltiples tareas simples simultáneamente.

En 2006, Jensen Huang llevó el proceso un paso más allá. Lanzó una tecnología de software llamada CUDA que ayuda a programar las GPU para nuevas tareas, transformando las GPU de chips de un solo propósito en chips de propósito más general que pueden asumir otras tareas en campos como simulaciones de física y química.

En 2012, los investigadores utilizaron GPU para lograr una precisión similar a la humana en tareas como identificar gatos en imágenes, un gran avance y precursor de desarrollos recientes como la generación de imágenes a partir de señales de texto.

El esfuerzo, que Nvidia estima que costó más de 30 mil millones de dólares en una década, convierte a Nvidia en algo más que un simple proveedor de repuestos. Además de colaborar con los mejores científicos y empresas emergentes, la empresa ha formado un equipo que participa directamente en actividades de IA, como la creación y el entrenamiento de modelos lingüísticos.

Además, las necesidades de los profesionales llevaron a Nvidia a desarrollar múltiples capas de software clave más allá de CUDA, que también incluía bibliotecas de cientos de líneas de código prediseñado.

En cuanto al hardware, Nvidia se ha ganado la reputación de ofrecer constantemente chips más rápidos cada dos o tres años. En 2017, Nvidia comenzó a ajustar las GPU para manejar cálculos de IA específicos.

En septiembre pasado, Nvidia anunció que estaba produciendo un nuevo chip llamado H100, que había sido mejorado para manejar las llamadas operaciones Transformer. Estos cálculos están demostrando ser la base de servicios como ChatGPT, al que Huang llamó el “momento iPhone” de la inteligencia artificial generativa.

Hoy en día, a menos que los productos de otros fabricantes puedan formar una competencia positiva con la GPU de Nvidia, es posible romper el actual monopolio de Nvidia sobre la potencia informática de la IA.

¿Es posible para el chip de IA analógico de IBM?

Referencias:

Ver originales
  • Recompensa
  • Comentar
  • Compartir
Comentar
Sin comentarios