SignalPlus: una introducción a la IA generativa

Sin duda, la capacidad más singular de los seres humanos es crear, pero en la tecnología actual en constante cambio, ¡creamos creando máquinas! Una máquina puede dibujar obras de arte originales (dibujar), componer un artículo largo y coherente (escribir), componer música melodiosa (componer) y formular estrategias ganadoras para juegos complejos (jugar), dado un estilo. Esta tecnología es Inteligencia Artificial Generativa (Inteligencia Artificial Generativa, GenAI), ahora es solo el comienzo de la revolución GenAI, ahora es el mejor momento para aprender GenAI.

1. Generación y discriminación de modelos

GenAI es una palabra de moda, la esencia detrás de esto es modelo generativo (modelo generativo), que es una rama del aprendizaje automático, el objetivo es entrenar el modelo para generar nuevos datos similares al conjunto de datos dado.

Supongamos que tenemos un conjunto de datos de caballos. Primero, podemos entrenar un modelo generativo en este conjunto de datos para capturar las reglas que rigen las complejas relaciones entre píxeles en imágenes de caballos. Este modelo luego se muestrea para crear imágenes realistas de caballos que no existían en el conjunto de datos original, como se muestra en la figura a continuación.

Para comprender verdaderamente los objetivos y la importancia de un modelo generativo, es necesario compararlo con un modelo discriminativo. De hecho, la mayoría de los problemas en el aprendizaje automático se resuelven mediante modelos discriminativos, consulte los siguientes ejemplos.

Supongamos que tenemos un conjunto de datos de pinturas, algunas de Van Gogh y otras de otros artistas. Con suficientes datos, podemos entrenar un modelo discriminativo para predecir si una pintura determinada es de Van Gogh, como se muestra en la siguiente figura.

Cuando se usa un modelo discriminativo, cada ejemplo en el conjunto de entrenamiento tiene una etiqueta (etiqueta).Para el problema de dos categorías anterior, la etiqueta de la pintura de Van Gogh suele ser 1, y la etiqueta de la pintura que no es de Van Gogh es 0. En la figura anterior, la probabilidad final predicha del modelo es 0,83, por lo que es muy probable que haya sido creado por Van Gogh. A diferencia de un modelo discriminativo, un modelo generativo no requiere que los ejemplos contengan etiquetas porque su objetivo es generar nuevos datos, no predecir etiquetas para los datos.

Después de leer el ejemplo, utilicemos la notación matemática para definir con precisión el modelo generativo y el modelo discriminativo:

El modelo discriminativo modela P(y|x), características dadas x para estimar la probabilidad condicional de la etiqueta y.
El modelo de generación modela P(x), estima directamente la probabilidad de la característica x y toma muestras de esta distribución de probabilidad para generar nuevas características.

Tenga en cuenta que incluso si pudiéramos construir un modelo discriminatorio perfecto para identificar pinturas de Van Gogh, aún no sabría cómo crear una pintura que se parezca a Van Gogh, solo arrojaría una probabilidad de si la imagen es de Van Gogh. posibilidad de mano. Se puede ver que los modelos generativos son mucho más difíciles que los modelos discriminativos.

2. Generar el marco del modelo

Antes de entrar en el marco del modelo generativo, juguemos un juego. Suponiendo que los puntos en la figura a continuación son generados por algún tipo de regla, llamamos a esta regla Pdatos, ahora permítanos generar un x = (x 1, x 2) diferente para que este punto parece Generado por las mismas reglas Pdatos.

¿Cómo generarías este punto? Puede usar los puntos dados para generar un modelo Pmodelo en su mente, y los puntos que desee pueden generarse en las posiciones ocupadas por este modelo. Se puede ver que el modelo Pmodelo es la estimación de Pdatos. Entonces, el modelo P más simple es el cuadro naranja en la figura a continuación. Los puntos solo se pueden generar dentro del cuadro, pero no fuera del cuadro.

Para generar un nuevo punto, podemos elegir aleatoriamente un punto del cuadro o, de manera más rigurosa, tomar una muestra de la distribución del modelo Pmodelo. Este es un modelo generativo minimalista. Crea un modelo (recuadro naranja) a partir de los datos de entrenamiento (puntos negros) y luego toma una muestra del modelo, con la esperanza de que los puntos generados se parezcan a los puntos del conjunto de entrenamiento.

Ahora podemos proponer formalmente un marco para el aprendizaje generativo.

Ahora expongamos la distribución de generación de datos real Pdata y veamos cómo se puede aplicar el marco anterior a este ejemplo. En la siguiente figura, podemos ver que la regla de generación de datos Pdata es que los puntos solo se distribuyen uniformemente en la tierra y no aparecerán en el océano.

Claramente, nuestro modelo Pmodelo es una simplificación de la regla Pdatos. Examinar los puntos A, B y C en la figura anterior puede ayudarnos a comprender si el modelo P imita con éxito la regla Pdatos.

El punto A no se ajusta a la regla Pdata porque aparece en el mar, pero puede ser generado por el modelo Pmodel porque aparece dentro del recuadro naranja.
El punto B no puede ser generado por el modelo Pmodelo porque aparece fuera del cuadro naranja, pero cumple con la regla Pdatos porque aparece en tierra.
El punto C es generado por el modelo Pmodelo y se ajusta a la regla Pdatos.

Este ejemplo muestra los conceptos básicos detrás del modelado generativo. Aunque es mucho más complicado usar modelos generativos en la realidad, el marco básico es el mismo.

3. El primer modelo generativo

Suponga que usted es el director de moda (CFO) de una empresa y su trabajo es crear ropa nueva y moderna. Este año recibió 50 conjuntos de datos sobre colocaciones de moda (como se muestra a continuación) y necesita crear 10 colocaciones de moda nuevas.

Aunque eres el director de moda, también eres un científico de datos, por lo que decides utilizar modelos generativos para resolver este problema. Después de leer las 50 imágenes anteriores, decide usar cinco funciones, tipo de accesorios (tipo de accesorios), color de ropa (color de ropa), tipo de ropa (tipo de ropa), pelo Color (color de cabello) y tipo de cabello (tipo de cabello), para describir la colocación de moda.

Las 10 principales funciones de datos de imágenes son las siguientes.

Cada característica también tiene un número diferente de valores propios:

3 tipos de accesorios (tipo accesorios):

En Blanco, Redondo, Gafas De Sol

8 colores de ropa:

Negro, Azul 01, Gris 01, Verde Pastel, Naranja Pastel, Rosa, Rojo, Blanco

4 tipos de ropa:

Sudadera con capucha, mono, camiseta con cuello redondo, camiseta con cuello en V

6 colores de cabello:

Negro, rubio, marrón, rosa pastel, rojo, gris plateado

7 tipos de cabello:

NoHair, LongHairMoño, LongHairy, LongHairLacio, ShortHairShortOndulado, ShortHairShortFlat, ShortHairFrizzle

De esta forma, hay 3 * 8 * 4 * 6 * 7 = 4032 combinaciones de características, por lo que se puede imaginar que el espacio muestral contiene 4032 puntos. De los 50 puntos de datos proporcionados, se puede ver que Pdata prefiere ciertos valores de características para diferentes características. En la tabla anterior se puede ver que hay más colores de ropa blanca y colores de cabello gris plateado en la imagen. Dado que no conocemos los datos P reales, solo podemos usar estos 50 datos para construir un modelo P de modo que pueda ser similar a los datos P.

3.1 Modelo minimalista

Uno de los métodos más simples es asignar un parámetro de probabilidad a cada punto en las 4032 combinaciones de características, luego el modelo contiene 4031 parámetros, porque la suma de todos los parámetros de probabilidad es igual a 1. Ahora, verifiquemos 50 datos uno por uno y luego actualicemos los parámetros del modelo **(**θ 1 , θ 2 ,...,θ 4031 ), la expresión de cada parámetro es:

Entre ellos, N es el número de datos observados, es decir, 50, y nj es el número de la combinación de características j que aparece en 50 datos.

Por ejemplo, la combinación de funciones (llamada combinación 1) de (Pelo largo, liso, rojo, redondo, cuello redondo, blanco) aparece dos veces, luego

Por ejemplo, si la combinación de características (llamada combinación 2) de (Pelo LargoLacio, Rojo, Redondo, Cuello Redondo, Azul 01) no aparece, entonces

De acuerdo con las reglas anteriores, calculamos un valor θ para todas las combinaciones 4031. No es difícil ver que hay muchos valores θ que son 0. Lo que es peor es que no podemos generar nuevas imágenes invisibles (θ = 0 significa que nunca se ha observado ninguna imagen con esa combinación de características). Para arreglar esto, simplemente agregue el número total de características, d, al denominador y 1 al numerador, una técnica llamada suavizado de Laplace.

Ahora, cada combinación (incluidas las que no están en el conjunto de datos original) tiene una probabilidad de muestreo distinta de cero; sin embargo, este todavía no es un modelo generativo satisfactorio, ya que la probabilidad de un punto que no está en el conjunto de datos original es una constante. Si tratamos de usar un modelo de este tipo para generar una pintura de Van Gogh, operará en las siguientes dos pinturas con igual probabilidad:

Reproducciones de pinturas originales de Van Gogh (no en el conjunto de datos original)
Pinturas hechas de píxeles aleatorios (no en el conjunto de datos original)

Obviamente, este no es el modelo generativo que queremos, esperamos que pueda aprender alguna estructura inherente de los datos, de modo que pueda aumentar el peso de probabilidad de las regiones en el espacio de muestra que cree que son más probables, en lugar de poner todos los pesos de probabilidad en el punto de existencia del conjunto de datos.

3.2 Modelo subsimplificado

El modelo Naive Bayes (Naive Bayes) puede reducir en gran medida el número de combinaciones de las características anteriores y, según su modelo, se supone que cada característica es independiente entre sí. Volviendo a los datos anteriores, el color de cabello de una persona (rasgo xj) no está relacionado con el color de su ropa (rasgo xk), expresado en una expresión matemática es:

p(xj | xk) = p(xk)

Con esta suposición, podemos calcular

El modelo Naive Bayesian simplifica el problema original "estimación de probabilidad para cada combinación de características" a "estimación de probabilidad para cada característica". Resulta que necesitamos usar 4031 (3 * 8 * 4 * 6 * 7) parámetros , ahora solo se necesitan 23 (3 + 8 + 4 + 6 + 7) parámetros, y la expresión de cada parámetro es:

Entre ellos, N es el número de datos observados, es decir, 50, n*kl es el número de la característica kth y el ****l ***valor propio debajo de su número.

A través de las estadísticas de 50 datos, la siguiente tabla da los valores de los parámetros del modelo Naive Bayesian.

Para calcular la probabilidad de que un modelo genere una característica de datos, simplemente multiplique las probabilidades en la tabla anterior, por ejemplo:

La combinación anterior no apareció en el conjunto de datos original, pero el modelo aún le asignó una probabilidad distinta de cero, por lo que el modelo aún podía generarla. Por lo tanto, los modelos naive bayesianos pueden aprender alguna estructura de los datos y usarla para generar nuevos ejemplos que no se ven en el conjunto de datos original. La siguiente imagen es una imagen de 10 nuevas colocaciones de moda generadas por el modelo.

En este problema, solo 5 características pertenecen a datos de baja dimensión. Es razonable que el modelo Naive Bayesian asuma que son independientes entre sí, por lo que los resultados generados por el modelo no son malos. Veamos un ejemplo de modelo. colapsar.

4. Dificultades en la generación de modelos

4.1 Datos de alta dimensión

Como director de moda, ha generado con éxito 10 nuevas colocaciones de moda con Naive Bayesian. Está tan seguro de que su modelo es invencible hasta que se encuentra con el siguiente conjunto de datos.

El conjunto de datos ya no está representado por cinco características, sino por 32* 32 = 1024 píxeles, cada valor de píxel puede ir de 0 a 255, 0 significa blanco, 255 significa negro. La siguiente tabla enumera los valores de los píxeles 1 a 5 para las primeras 10 imágenes.

Use el mismo modelo para generar 10 conjuntos de colocaciones de moda completamente nuevas. El siguiente es el resultado de la generación del modelo. Cada uno es feo y similar, y no se pueden distinguir diferentes características. ¿Por qué es así?

En primer lugar, dado que el modelo naive bayesiano muestrea píxeles de forma independiente, los píxeles adyacentes son en realidad muy similares. Para la ropa, de hecho, los píxeles deberían ser más o menos iguales, pero el modelo se muestra al azar, por lo que la ropa en la imagen de arriba es colorida. En segundo lugar, hay demasiadas posibilidades en un espacio muestral de alta dimensión, de las cuales solo una fracción es identificable. Si un modelo naive bayesiano trata directamente con valores de píxeles tan altamente correlacionados, las posibilidades de que encuentre una combinación satisfactoria de valores son muy pequeñas.

En resumen, para espacios de muestra con dimensiones bajas y baja correlación de características, el efecto Naive Bayesian es muy bueno a través del muestreo independiente; pero para espacios de muestra con dimensiones altas y alta correlación de características, se utilizan píxeles de muestreo independientes para encontrar rostros humanos efectivos. casi imposible.

Este ejemplo destaca dos dificultades que los modelos generativos deben superar para tener éxito:

¿Cómo maneja el modelo las dependencias condicionales entre características de alta dimensión?
¿Cómo encuentra el modelo una proporción muy pequeña de observaciones que satisfacen la condición de un espacio muestral de alta dimensión?

Para que los modelos generativos tengan éxito en espacios de muestra de alta dimensión y altamente correlacionados, se deben utilizar modelos de aprendizaje profundo. Necesitamos un modelo que pueda inferir estructuras relevantes a partir de los datos, en lugar de que nos digan qué suposiciones hacer antes de tiempo. El aprendizaje profundo puede formar sus propias características en un espacio de baja dimensión, y esta es una forma de aprendizaje de representación (aprendizaje de representación).

4.2 Representación Aprendizaje

El aprendizaje de representación es aprender el significado de la representación de datos de alta dimensión.

Supongamos que va a encontrarse con un internauta que nunca ha conocido, y hay muchas personas que no pueden encontrarla en el lugar de reunión, por lo que la llama para describir su apariencia. Creo que no dirá que el color del píxel 1 en su imagen es negro, el color del píxel 2 es negro claro, el color del píxel 3 es gris y así sucesivamente. Por el contrario, pensará que los internautas tendrán una comprensión general de la apariencia de la gente común, y luego dará esta comprensión para describir las características del grupo de píxeles, por ejemplo, tiene un cabello corto, negro y hermoso, usando un par de vasos de oro y así sucesivamente. Por lo general, con no más de 10 descripciones de este tipo, un internauta puede generar una imagen de usted desde su mente. La imagen puede ser tosca, pero no evita que el internauta lo encuentre entre cientos de personas, incluso si nunca lo ha visto.

Esta es la idea central detrás del aprendizaje de representación, en lugar de tratar de modelar directamente el espacio de muestra de alta dimensión (espacio de muestra de alta dimensión), pero usando algún espacio latente de baja dimensión (espacio de muestra de baja dimensión). space ) para describir cada observación en el conjunto de entrenamiento y luego aprender una función de mapeo (función de mapeo), que puede tomar un punto en el espacio latente y mapearlo al espacio de muestra original. En otras palabras, cada punto en el espacio latente representa una característica de los datos de alta dimensión.

Si las palabras anteriores no son fáciles de entender, consulte el conjunto de capacitación a continuación que consta de algunas imágenes de frascos en escala de grises.

No es difícil ver que estos frascos pueden describirse por solo dos características: alto y ancho. Por lo tanto, podemos convertir el espacio de píxeles de alta dimensión de la imagen en un espacio latente bidimensional, como se muestra en la siguiente figura. De esta forma podemos muestrear (puntos azules) del espacio latente y luego convertirlo en una imagen a través de la función de mapeo f.

No es fácil para la máquina darse cuenta de que el conjunto de datos original se puede representar mediante un espacio latente más simple.Primero, la máquina necesita determinar que la altura y el ancho son las dos dimensiones del espacio latente que mejor describen el conjunto de datos, y luego aprender la función de mapeo f puede tomar un punto en este espacio y mapearlo en un mapa de latas en escala de grises. El aprendizaje profundo nos permite entrenar máquinas para encontrar estas relaciones complejas sin la guía humana.

5. Clasificación de los modelos generados

En última instancia, todos los tipos de modelos generativos tienen como objetivo resolver la misma tarea, pero todos modelan funciones de densidad de formas ligeramente diferentes y, por lo general, se dividen en dos categorías:

modelado explícito (modelado explícito) la función de densidad,

Pero de alguna manera restringe el modelo para calcular la función de densidad, como modelo de FLUJO de normalización (modelo de FLUJO de normalización)

Pero para aproximar la función de densidad, como autocodificador variacional (autocodificador iacional, VAE) y modelo de difusión (modelo de difusión)

Modelado implícito (modelado implícito) de la función de densidad, a través de un proceso estocástico que genera datos directamente. Por ejemplo, Red antagónica generativa (red antagónica generativa, GAN)

Resumir

La inteligencia artificial generativa (GenAI) es un tipo de inteligencia artificial que se puede utilizar para crear nuevos contenidos e ideas, incluidos texto, imágenes, vídeo y música. Como toda inteligencia artificial, GenAI es un modelo súper grande entrenado previamente por un modelo de aprendizaje profundo basado en una gran cantidad de datos, a menudo llamado modelo de base (FM). Con GenAI, podemos dibujar imágenes más geniales, escribir textos más hermosos y componer música más conmovedora, pero el primer paso requiere que entendamos cómo GenAI crea cosas nuevas, como dijo el jefe del artículo Richard Feynman: "No entenderé lo que no puedo crear".

Ver originales

Recompensa
Me gusta
Comentar
Compartir

Comentar

Sin comentarios

Tema
#BTC#
82k publicaciones
#GateioInto11#
60k publicaciones
#ContentStar#
53k publicaciones
4#BOME#
51k publicaciones
5#ETH#
50k publicaciones
6#SLERF#
45k publicaciones
7#PIGCOIN#
43k publicaciones
8#比特币#
42k publicaciones
9#NADA#
39k publicaciones
10#HotTopicDiscussion#
38k publicaciones