2D a 3D nuevo avance! Análisis en profundidad de la tecnología AIGC, un artículo para entender la historia y situación actual de la generación de datos 3D

Autor: Chengxi Editor: Manman Zhou

Fuente: Silicon Rabbit Race

En los últimos 18 meses, AI Content Generation (AIGC) es, sin duda, el tema más candente en el círculo de capital de riesgo tecnológico de Silicon Valley.

DALL-E (a partir de enero de 2021)

Midjourney (a partir de julio de 2022)

Difusión estable (a partir de agosto de 2022)

Este tipo de herramienta generativa 2D puede convertir indicaciones de texto ( ) en imágenes artísticas en solo unos segundos. Con la evolución y el avance de tales herramientas AIGC 2D, los flujos de trabajo creativos de artistas, diseñadores y estudios de juegos se están revolucionando rápidamente.

¿Dónde está el próximo avance de AIGC? Muchos inversores y veteranos de la industria han dado predicciones: generación de datos en 3D.

Notamos que 3D AIGC está pasando por una etapa en la que se ha desarrollado 2D AIGC. En este artículo, discutiremos los nuevos avances de AIGC en el campo de los datos 3D con más profundidad y veremos cómo las herramientas de IA generativa pueden mejorar la eficiencia y la innovación de la generación de datos 3D.

01 Revisión del rápido desarrollo de 2D AIGC

El desarrollo de 2D AIGC se puede resumir brevemente en las siguientes tres etapas de desarrollo:

Fase 1: Edición inteligente de imágenes

Ya en 2014, con la introducción de la red de confrontación generativa (GAN, trabajo de seguimiento típico StyleGAN) y autocodificador variacional (VAE, trabajo de seguimiento típico VQVAE, alignDRAW), los modelos de IA comenzaron a ser ampliamente utilizados en la generación inteligente de Imágenes 2D y edición. Los primeros modelos de IA se usaban principalmente para aprender algunas distribuciones de imágenes relativamente simples o realizar alguna edición de imágenes. Las aplicaciones comunes incluyen: generación de rostros, transferencia de estilo de imagen, superresolución de imagen, finalización de imagen y edición de imagen controlable.

Pero las primeras redes de generación/edición de imágenes tienen una interacción multimodal muy limitada con el texto. Además, las redes GAN suelen ser difíciles de entrenar y, a menudo, encuentran problemas como el colapso del modo y la inestabilidad. Los datos generados suelen ser deficientes en diversidad, y la capacidad del modelo también determina el límite superior de la escala de datos disponible; VAE a menudo encuentra el la imagen generada es borrosa y otros problemas.

La segunda etapa: el salto del modelo gráfico de Vincent

Con el avance de la tecnología de generación de difusión (difusión), la aparición y el desarrollo de conjuntos de datos multimodales a gran escala (como el conjunto de datos LAION) y modelos de representación multimodal (como el modelo CLIP lanzado por OpenAI), el campo de la generación de imágenes 2D será en 2021. Se ha logrado un progreso significativo. El modelo de generación de imágenes comenzó a interactuar profundamente con el texto, y el modelo de gráfico de Vincent a gran escala hizo un debut sorprendente.

Cuando OpenAI lance DALL-E a principios de 2021, la tecnología AIGC realmente comenzará a mostrar un gran potencial comercial. DALL-E puede generar imágenes realistas y complejas a partir de señales de texto arbitrarias con una tasa de éxito muy mejorada. En un año, rápidamente siguieron una gran cantidad de modelos de gráficos de Vincent, incluidos DALL-E 2 (actualizado en abril de 2022) e Imagen (lanzado por Google en mayo de 2022). Aunque estas tecnologías aún no eran eficientes para ayudar a los creadores de arte a producir contenido que pudiera ponerse directamente en producción, han atraído la atención del público y han estimulado la creatividad y el potencial de producción de artistas, diseñadores y estudios de juegos.

Fase tres: de asombroso a productivo

Con la mejora de los detalles técnicos y la iteración de la optimización de ingeniería, 2D AIGC se ha desarrollado rápidamente. Para la segunda mitad de 2022, modelos como Midjourney y Stable Diffusion se han convertido en herramientas AIGC populares. Impulsado por sus conjuntos de datos de entrenamiento a gran escala, el rendimiento de las técnicas AIGC en aplicaciones del mundo real ha beneficiado a los primeros usuarios en las industrias de medios, publicidad y juegos. Además, la aparición y el desarrollo de tecnologías de ajuste fino de modelos grandes (como ControlNet y LoRA) también permiten a las personas "personalizar", ajustar y expandir modelos grandes de IA de acuerdo con sus necesidades reales y una pequeña cantidad de datos de entrenamiento, a fin de adaptarse mejor a diferentes aplicaciones específicas (como estilización bidimensional, generación de logotipos, generación de códigos QR, etc.).

La ideación y creación de prototipos con herramientas AIGC ahora lleva horas o menos en muchos casos, en lugar de los días o semanas que solía tomar. Si bien la mayoría de los diseñadores gráficos profesionales aún modifican o recrean bocetos generados por IA, cada vez es más común que los blogs personales o los anuncios utilicen imágenes generadas por IA directamente.

Diferentes efectos de conversión de texto a imagen de alignDRAW, DALL-E 2 y Midjourney.

Además de la conversión de texto a imagen, 2D AIGC continúa teniendo desarrollos más recientes. Por ejemplo, Midjourney y otras empresas emergentes como Runway y Phenaki están desarrollando capacidades de texto a video. Además, Zero-1-to-3 ha propuesto un método para generar imágenes correspondientes desde diferentes ángulos de visión a partir de una sola imagen 2D de un objeto.

Debido a la creciente demanda de datos 3D en las industrias de juegos y robótica, la investigación de vanguardia actual sobre AIGC se está desplazando gradualmente hacia la generación de datos 3D. Esperamos un patrón de desarrollo similar para 3D AIGC.

Momento "DALL-E" de 3D AIGC

¡Los recientes avances tecnológicos en el campo 3D nos dicen que se acerca el momento "DALL-E" de 3D AIGC!

Desde DreamFields a fines de 2021 hasta DreamFusion y Magic3D en la segunda mitad de 2022, y luego ProlificDreamer en mayo de este año, gracias al desarrollo de dominios multimodales y modelos de gráficos Vincent, se han logrado muchos avances en el modelo académico 3D de Wensheng. Varios métodos son capaces de generar modelos 3D de alta calidad a partir del texto de entrada.

Sin embargo, la mayoría de estas primeras exploraciones necesitan optimizar una representación 3D desde cero al generar cada modelo 3D, para que las perspectivas 2D correspondientes a la representación 3D cumplan con las expectativas de los modelos de entrada y anteriores. Dado que tales optimizaciones normalmente requieren decenas de miles de iteraciones, a menudo requieren mucho tiempo. Por ejemplo, generar un único modelo de malla 3D puede llevar hasta 40 minutos en Magic3D y horas en ProlificDreamer. Además, uno de los grandes desafíos de la generación 3D es que el modelo 3D debe tener la consistencia de la forma del objeto desde diferentes ángulos. Los métodos 3D AIGC existentes a menudo encuentran el problema de Janus, es decir, los objetos 3D generados por AI tienen múltiples cabezas o múltiples caras.

Problema de Janus debido a la falta de consistencia de la forma 3D en ProlificDreamer. A la izquierda hay una vista frontal de un pájaro azul aparentemente normal. A la derecha hay una imagen confusa que representa un pájaro con dos caras.

Pero, por otro lado, algunos equipos están tratando de romper el paradigma de generación basado en la optimización existente y generar modelos 3D a través de una única ruta técnica de predicción directa, lo que mejora en gran medida la velocidad y la precisión de la generación 3D. Estos métodos incluyen Point-E y Shap-E (lanzados por OpenAI en 2022 y 2023, respectivamente) y One-2–3–45 (lanzados por UC San Diego en 2023). De particular interés es el One-2–3–45, lanzado el mes pasado, capaz de generar una malla 3D consistente y de alta calidad a partir de una imagen 2D en solo 45 segundos.

Un análisis comparativo de una sola imagen a métodos de malla 3D. De izquierda a derecha, podemos observar que el tiempo de procesamiento se ha reducido drásticamente de más de una hora a menos de un minuto. Point-E, Shap-E y One-2–3–45 sobresalen en velocidad y precisión.

Estos últimos avances tecnológicos en el campo de AIGC 3D no solo mejoran en gran medida la velocidad y la calidad de la generación, sino que también hacen que la entrada del usuario sea más flexible. Los usuarios pueden ingresar a través de indicaciones de texto o generar el modelo 3D deseado a través de una sola imagen 2D con más información. Esto amplía enormemente las posibilidades de 3D AIGC en términos de aplicaciones comerciales.

La IA revoluciona el proceso de producción en 3D

Primero, comprendamos el flujo de trabajo que los diseñadores 3D tradicionales deben seguir para crear modelos 3D:

  1. Bocetos conceptuales: los diseñadores de arte conceptual hacen una lluvia de ideas e idean las maquetas requeridas en función de los aportes del cliente y las referencias visuales.

  2. Creación de prototipos en 3D: los diseñadores de modelos utilizan software profesional para crear la forma básica del modelo e iterar en función de los comentarios de los clientes.

  3. Refinamiento del modelo: agregue detalles, color, textura y propiedades de animación (como rigging, iluminación, etc.) al modelo 3D aproximado.

  4. Finalización del modelo: los diseñadores utilizan software de edición de imágenes para mejorar la representación final, ajustar los colores, agregar efectos o realizar la síntesis de elementos.

Este proceso suele tardar algunas semanas, posiblemente incluso más si se trata de animación. Sin embargo, cada uno de estos pasos podría acelerarse potencialmente con la ayuda de la IA.

  1. Un poderoso generador de imágenes de vista múltiple (por ejemplo, Zero-1–to–3 basado en Stable Diffusion and Midjourney) facilita la lluvia de ideas creativas y genera bocetos de imágenes de vista múltiple.

  2. Las tecnologías de conversión de texto a 3D o de imagen a 3D (por ejemplo, One-2–3–45 o Shap-E) pueden generar múltiples prototipos 3D en minutos, brindando a los diseñadores una amplia gama de opciones.

  3. Mediante la optimización de modelos 3D (p. ej., Magic 3D o ProlificDreamer), los prototipos seleccionados se pueden refinar automáticamente en cuestión de horas.

  4. Una vez que el modelo refinado está listo, el diseñador 3D puede seguir diseñando y completando el modelo de alta fidelidad.

Una comparación de los flujos de trabajo de producción 3D tradicionales e impulsados por IA

**¿El 3D AIGC reemplazará a los humanos? **

Nuestra conclusión es que todavía no. Las personas siguen siendo un eslabón indispensable en el enlace 3D AIGC.

Aunque la tecnología de generación de modelos 3D mencionada anteriormente puede tener muchas aplicaciones en robótica, conducción autónoma y juegos 3D, el proceso de producción actual aún no puede satisfacer una amplia gama de aplicaciones.

Con este fin, Silicon Rabbit Jun entrevistó al profesor Su Hao de la Universidad de California en San Diego, un destacado experto en los campos del aprendizaje profundo en 3D y la IA incorporada, uno de los autores del –3–45 modelo. El profesor Su Hao cree que el principal cuello de botella del modelo de generación 3D actual es la falta de una gran cantidad de conjuntos de datos 3D de alta calidad. Los conjuntos de datos 3D comúnmente utilizados actualmente, como ShapeNet (alrededor de 52 000 cuadrículas 3D) u Objaverse (alrededor de 800 000 modelos 3D), contienen modelos que deben mejorarse en términos de cantidad y calidad de detalle. Especialmente en comparación con grandes conjuntos de datos en el dominio 2D (por ejemplo, LAION-5B), su volumen de datos aún está lejos de ser suficiente para entrenar grandes modelos 3D.

El profesor Su Hao una vez estudió con el profesor Leonidas Guibas, un pionero de la computación geométrica y miembro de la Academia Estadounidense de Ciencias, y participó en el proyecto ImageNet dirigido por el profesor Feifei Li como uno de los primeros contribuyentes. Inspirándose en ellos, el profesor Su Hao enfatizó el papel clave de los extensos conjuntos de datos 3D en el avance de la tecnología y sentó las bases para el surgimiento y la prosperidad del campo del aprendizaje profundo 3D.

Además, los modelos 3D son mucho más complejos que las imágenes 2D, por ejemplo:

  1. Estructura de partes: los juegos o las aplicaciones de gemelos digitales requieren partes estructuradas de objetos 3D (por ejemplo, PartNet), en lugar de una sola malla 3D;

  2. Uniones y enlaces: propiedades clave para interactuar con objetos 3D;

  3. Textura y material: como reflectancia, coeficiente de fricción superficial, distribución de densidad, módulo de Young y otras propiedades clave que respaldan la interacción;

  4. Operación y manipulación: Permita que los diseñadores interactúen y manipulen modelos 3D de manera más efectiva.

Y los puntos anteriores son donde la experiencia humana puede seguir desempeñando un papel importante.

El profesor Su Hao cree que, en el futuro, la generación de datos 3D impulsada por IA debería tener las siguientes características:

  1. Apoyar la generación de modelos 3D que admitan aplicaciones interactivas. Esta interacción incluye tanto la interacción física entre objetos (como colisiones) como la interacción entre personas y objetos (métodos de interacción físicos y no físicos), creando datos 3D en el juego. , metaverso, simulación física y otros escenarios pueden ser ampliamente utilizados;

  2. Admite la generación de contenido 3D asistida por IA, lo que hace que el modelado sea más eficiente;

  3. Apoyar el proceso de creación de Human-in-the-loop y utilizar el talento artístico humano para mejorar la calidad de los datos generados, mejorando así aún más el rendimiento del modelado y formando un efecto de volante de datos de circuito cerrado.

Similar al asombroso desarrollo de tecnologías como DALL-E y ChatGPT en los últimos 18 meses, creemos firmemente que en el campo de 3D AIGC, es muy probable que su innovación y aplicación superen nuestras expectativas, y Silicon Rabbit continuará profundizando la Exploración. y salida.

Ver originales
  • Recompensa
  • Comentar
  • Compartir
Comentar
Sin comentarios