Bước đột phá mới từ 2D sang 3D! Phân tích chuyên sâu về công nghệ AIGC, bài viết tìm hiểu lịch sử và hiện trạng của việc tạo dữ liệu 3D

Tác giả: Chengxi Biên tập viên: Manman Zhou

Nguồn: Cuộc Đua Thỏ Silicon

Trong 18 tháng qua, AI Content Generation (AIGC) chắc chắn là chủ đề nóng và nóng nhất trong giới đầu tư mạo hiểm công nghệ ở Thung lũng Silicon.

DALL-E (sắp ra mắt vào tháng 1 năm 2021)

Midjourney (sắp ra mắt vào tháng 7 năm 2022)

Phát tán ổn định (sắp ra mắt vào tháng 8 năm 2022)

Loại công cụ tạo 2D này có thể chuyển đổi lời nhắc văn bản ( ) thành hình ảnh nghệ thuật chỉ trong vài giây. Với sự phát triển và tiến bộ của các công cụ AIGC 2D như vậy, quy trình làm việc sáng tạo của các nghệ sĩ, nhà thiết kế và studio trò chơi đang được cách mạng hóa nhanh chóng.

Đâu là bước đột phá tiếp theo của AIGC? Nhiều nhà đầu tư và những người kỳ cựu trong ngành đã đưa ra dự đoán - tạo dữ liệu 3D.

Chúng tôi nhận thấy rằng AIGC 3D đang trải qua giai đoạn phát triển AIGC 2D. Trong bài viết này, chúng ta sẽ thảo luận sâu hơn về những đột phá mới của AIGC trong lĩnh vực dữ liệu 3D và mong chờ cách các công cụ AI tổng quát có thể cải thiện hiệu quả và sự đổi mới của việc tạo dữ liệu 3D.

01 Đánh giá về sự phát triển nhanh chóng của 2D AIGC

Sự phát triển của AIGC 2D có thể được tóm tắt ngắn gọn thành ba giai đoạn phát triển sau:

Giai đoạn 1: Chỉnh sửa hình ảnh thông minh

Ngay từ năm 2014, với sự ra đời của mạng đối đầu tổng quát (GAN, công việc tiếp theo điển hình StyleGAN) và bộ mã hóa tự động biến đổi (VAE, công việc tiếp theo điển hình VQVAE, alignDRAW), các mô hình AI bắt đầu được sử dụng rộng rãi trong thế hệ thông minh của Hình ảnh 2D và chỉnh sửa. Các mô hình AI ban đầu chủ yếu được sử dụng để tìm hiểu một số phân phối hình ảnh tương đối đơn giản hoặc thực hiện một số chỉnh sửa hình ảnh.

Nhưng các mạng tạo/chỉnh sửa hình ảnh ban đầu có tương tác đa phương thức rất hạn chế với văn bản. Ngoài ra, mạng GAN thường khó đào tạo và thường gặp phải các sự cố như sập chế độ và không ổn định.Dữ liệu được tạo ra thường kém đa dạng và dung lượng mô hình cũng xác định giới hạn trên của thang dữ liệu khả dụng;VAE thường gặp hình ảnh được tạo ra bị mờ và các vấn đề khác.

Giai đoạn thứ hai: bước nhảy vọt của mô hình đồ thị Vincent

Với sự đột phá của công nghệ tạo khuếch tán (diffusion), sự xuất hiện và phát triển của các bộ dữ liệu đa phương thức quy mô lớn (như bộ dữ liệu LAION) và các mô hình biểu diễn đa phương thức (như mô hình CLIP do OpenAI phát hành), lĩnh vực thế hệ hình ảnh 2D sẽ có vào năm 2021. Đã có những tiến bộ đáng kể. Mô hình tạo hình ảnh bắt đầu tương tác sâu sắc với văn bản và mô hình đồ thị Vincent quy mô lớn đã ra mắt một cách đáng kinh ngạc.

Khi OpenAI phát hành DALL-E vào đầu năm 2021, công nghệ AIGC sẽ thực sự bắt đầu cho thấy tiềm năng thương mại to lớn. DALL-E có thể tạo hình ảnh thực tế và phức tạp từ các tín hiệu văn bản tùy ý với tỷ lệ thành công được cải thiện đáng kể. Trong vòng một năm, một số lượng lớn các mô hình đồ thị Vincent đã nhanh chóng theo sau, bao gồm DALL-E 2 (được nâng cấp vào tháng 4 năm 2022) và Imagen (được Google phát hành vào tháng 5 năm 2022). Mặc dù những công nghệ này chưa hiệu quả trong việc giúp những người sáng tạo nghệ thuật tạo ra nội dung có thể trực tiếp đưa vào sản xuất, nhưng chúng đã thu hút sự chú ý của công chúng và kích thích khả năng sáng tạo và sản xuất của các nghệ sĩ, nhà thiết kế và studio trò chơi.

Giai đoạn ba: Từ kinh ngạc đến hiệu quả

Với việc cải thiện các chi tiết kỹ thuật và lặp đi lặp lại tối ưu hóa kỹ thuật, AIGC 2D đã phát triển nhanh chóng. Đến nửa cuối năm 2022, các mô hình như Midjourney và Stable Diffusion đã trở thành công cụ AIGC phổ biến. Được thúc đẩy bởi bộ dữ liệu đào tạo quy mô lớn của họ, hiệu suất của các kỹ thuật AIGC trong các ứng dụng trong thế giới thực đã mang lại lợi ích cho những người dùng đầu tiên trong ngành truyền thông, quảng cáo và trò chơi. Ngoài ra, sự xuất hiện và phát triển của các công nghệ tinh chỉnh mô hình lớn (như ControlNet và LoRA) cũng cho phép mọi người "tùy chỉnh" điều chỉnh và mở rộng AI các mô hình lớn theo nhu cầu thực tế của họ và một lượng nhỏ dữ liệu đào tạo, để thích ứng tốt hơn với các ứng dụng cụ thể khác nhau (Chẳng hạn như cách điệu hai chiều, tạo logo, tạo mã QR, v.v.).

Trong nhiều trường hợp, việc lên ý tưởng và tạo mẫu bằng các công cụ AIGC hiện chỉ mất hàng giờ hoặc ít hơn, thay vì mất vài ngày hoặc vài tuần như trước đây. Mặc dù hầu hết các nhà thiết kế đồ họa chuyên nghiệp vẫn sửa đổi hoặc tạo lại các bản phác thảo do AI tạo ra, nhưng các blog cá nhân hoặc quảng cáo sử dụng trực tiếp hình ảnh do AI tạo ra ngày càng phổ biến.

Các hiệu ứng khác nhau của chuyển đổi văn bản alignDRAW, DALL-E 2 và Midjourney thành hình ảnh.

Ngoài chuyển đổi văn bản thành hình ảnh, 2D AIGC tiếp tục có nhiều bước phát triển gần đây. Ví dụ: Midjourney và các công ty khởi nghiệp khác như Runway và Phenaki đang phát triển khả năng chuyển văn bản thành video. Ngoài ra, Zero-1-to-3 đã đề xuất một phương pháp tạo ra các hình ảnh tương ứng từ các góc nhìn khác nhau từ một hình ảnh 2D duy nhất của một đối tượng.

Do nhu cầu ngày càng tăng về dữ liệu 3D trong ngành công nghiệp trò chơi và người máy, nghiên cứu tiên tiến hiện tại về AIGC đang dần chuyển sang tạo dữ liệu 3D. Chúng tôi mong đợi một mô hình phát triển tương tự cho 3D AIGC.

Khoảnh khắc "DALL-E" của 3D AIGC

Những đột phá công nghệ gần đây trong lĩnh vực 3D cho chúng ta biết rằng thời khắc "DALL-E" của AIGC 3D đang đến!

Từ DreamFields vào cuối năm 2021 đến DreamFusion và Magic3D vào nửa cuối năm 2022, rồi đến ProlificDreamer vào tháng 5 năm nay, nhờ sự phát triển của các miền đa phương thức và mô hình đồ thị Vincent, nhiều đột phá đã được tạo ra trong mô hình 3D học thuật của văn thánh. Một số phương pháp có khả năng tạo mô hình 3D chất lượng cao từ văn bản đầu vào.

Tuy nhiên, hầu hết các khám phá ban đầu này cần tối ưu hóa biểu diễn 3D từ đầu khi tạo từng mô hình 3D để các phối cảnh 2D tương ứng với biểu diễn 3D đáp ứng kỳ vọng của mô hình đầu vào và mô hình trước đó. Vì các tối ưu hóa như vậy thường yêu cầu hàng chục nghìn lần lặp lại nên chúng thường tốn nhiều thời gian. Ví dụ: tạo một mô hình lưới 3D duy nhất có thể mất tới 40 phút trong Magic3D và hàng giờ trong ProlificDreamer. Ngoài ra, một trong những thách thức lớn của việc tạo 3D là mô hình 3D phải có sự thống nhất về hình dạng của vật thể từ các góc độ khác nhau. Các phương pháp AIGC 3D hiện tại thường gặp phải Vấn đề Janus, đó là các đối tượng 3D do AI tạo ra có nhiều đầu hoặc nhiều mặt.

Sự cố Janus do thiếu tính nhất quán của hình dạng 3D trong ProlificDreamer. Bên trái là hình ảnh trực diện của một chú chim xanh dường như bình thường. Bên phải là một hình ảnh khó hiểu mô tả một con chim có hai khuôn mặt.

Nhưng mặt khác, một số nhóm đang cố gắng vượt qua mô hình tạo dựa trên tối ưu hóa hiện có và tạo mô hình 3D thông qua một lộ trình kỹ thuật dự đoán chuyển tiếp duy nhất, giúp cải thiện đáng kể tốc độ và độ chính xác của việc tạo 3D. Các phương pháp này bao gồm Point-E và Shap-E (do OpenAI phát hành lần lượt vào năm 2022 và 2023) và One-2–3–45 (do UC San Diego phát hành vào năm 2023). Đặc biệt lưu ý là One-2–3–45, được phát hành vào tháng trước, có khả năng tạo lưới 3D nhất quán và chất lượng cao từ hình ảnh 2D chỉ trong 45 giây!

Phân tích so sánh các phương pháp hình ảnh đơn với lưới 3D. Từ trái sang phải, chúng ta có thể thấy rằng thời gian xử lý đã giảm đáng kể từ hơn một giờ xuống còn chưa đầy một phút. Point-E, Shap-E và One-2–3–45 đều vượt trội về tốc độ và độ chính xác.

Những đột phá công nghệ mới nhất này trong lĩnh vực 3D AIGC không chỉ cải thiện đáng kể tốc độ và chất lượng tạo mà còn giúp người dùng nhập dữ liệu linh hoạt hơn. Người dùng có thể nhập thông qua lời nhắc văn bản hoặc tạo mô hình 3D mong muốn thông qua một hình ảnh 2D duy nhất có thêm thông tin. Điều này mở rộng đáng kể khả năng của 3D AIGC về các ứng dụng thương mại.

AI cách mạng hóa quy trình sản xuất 3D

Trước tiên, hãy cho chúng tôi hiểu quy trình làm việc mà các nhà thiết kế 3D truyền thống cần trải qua để tạo mô hình 3D:

  1. Bản phác thảo ý tưởng: Các nhà thiết kế nghệ thuật ý tưởng động não và lên ý tưởng cho các mô hình mô phỏng cần thiết dựa trên thông tin tham khảo trực quan và thông tin đầu vào của khách hàng.

  2. Tạo mẫu 3D: Các nhà thiết kế mô hình sử dụng phần mềm chuyên nghiệp để tạo hình dạng cơ bản của mô hình và lặp lại dựa trên phản hồi của khách hàng.

  3. Tinh chỉnh mô hình: Thêm các thuộc tính chi tiết, màu sắc, kết cấu và hoạt hình (chẳng hạn như gian lận, ánh sáng, v.v.) vào mô hình 3D thô.

  4. Hoàn thiện mô hình: Nhà thiết kế sử dụng phần mềm chỉnh sửa hình ảnh để nâng cao kết xuất cuối cùng, điều chỉnh màu sắc, thêm hiệu ứng hoặc thực hiện tổng hợp phần tử.

Quá trình này thường mất vài tuần, thậm chí có thể lâu hơn nếu có hoạt ảnh. Tuy nhiên, mỗi bước trong số này có thể được thực hiện nhanh hơn với sự trợ giúp của AI.

  1. Trình tạo hình ảnh nhiều chế độ xem mạnh mẽ (ví dụ: Zero-1–to–3 dựa trên Khuếch tán ổn định và Giữa hành trình) tạo điều kiện cho việc động não sáng tạo và tạo các bản phác thảo hình ảnh nhiều chế độ xem.

  2. Các công nghệ chuyển văn bản thành 3D hoặc hình ảnh thành 3D (ví dụ: One-2–3–45 hoặc Shap-E) có thể tạo nhiều nguyên mẫu 3D trong vài phút, cung cấp cho các nhà thiết kế nhiều tùy chọn.

  3. Sử dụng tối ưu hóa mô hình 3D (ví dụ: Magic 3D hoặc ProlificDreamer), các nguyên mẫu đã chọn có thể được tinh chỉnh tự động trong vòng vài giờ.

  4. Khi mô hình tinh chỉnh đã sẵn sàng, nhà thiết kế 3D có thể thiết kế thêm và hoàn thiện mô hình có độ trung thực cao.

So sánh quy trình sản xuất 3D truyền thống và dựa trên AI

**AIGC 3D sẽ thay thế con người? **

Kết luận của chúng tôi là chưa. Con người vẫn là mắt xích không thể thiếu trong mắt xích 3D AIGC.

Mặc dù công nghệ tạo mô hình 3D nêu trên có thể có nhiều ứng dụng trong chế tạo robot, lái xe tự hành và trò chơi 3D, nhưng quy trình sản xuất hiện tại vẫn chưa thể đáp ứng nhiều ứng dụng.

Để đạt được mục tiêu này, Silicon Rabbit Jun đã phỏng vấn Giáo sư Su Hao từ Đại học California, San Diego. Ông là chuyên gia hàng đầu trong lĩnh vực Học sâu 3D và AI thể hiện. Một trong những tác giả của –3–45 người mẫu. Giáo sư Su Hao tin rằng nút cổ chai chính của mô hình thế hệ 3D hiện tại là thiếu một số lượng lớn các bộ dữ liệu 3D chất lượng cao. Các bộ dữ liệu 3D thông dụng hiện nay như ShapeNet (khoảng 52K lưới 3D) hay Objaverse (khoảng 800K mô hình 3D) chứa các mô hình cần được cải thiện về số lượng và chất lượng chi tiết. Đặc biệt so với các bộ dữ liệu lớn trong miền 2D (ví dụ: LAION-5B), khối lượng dữ liệu của chúng vẫn còn xa mới đủ để huấn luyện các mô hình 3D lớn.

Giáo sư Su Hao từng theo học Giáo sư Leonidas Guibas, người tiên phong về điện toán hình học và là thành viên của Viện Hàn lâm Khoa học Hoa Kỳ, đồng thời tham gia vào dự án ImageNet do Giáo sư Feifei Li đứng đầu với tư cách là người đóng góp ban đầu. Lấy cảm hứng từ chúng, Giáo sư Su Hao nhấn mạnh vai trò chính của bộ dữ liệu 3D mở rộng trong công nghệ tiên tiến và đặt nền móng cho sự xuất hiện và thịnh vượng của lĩnh vực học sâu 3D.

Ngoài ra, các mô hình 3D phức tạp hơn nhiều so với hình ảnh 2D, ví dụ:

  1. Cấu trúc bộ phận: Trò chơi hoặc ứng dụng song sinh kỹ thuật số yêu cầu các bộ phận có cấu trúc của đối tượng 3D (ví dụ: PartNet), thay vì một lưới 3D đơn lẻ;

  2. Khớp nối và ràng buộc: các thuộc tính chính để tương tác với các đối tượng 3D;

  3. Kết cấu và vật liệu: chẳng hạn như hệ số phản xạ, hệ số ma sát bề mặt, phân bố mật độ, mô đun Young và các thuộc tính quan trọng khác hỗ trợ tương tác;

  4. Vận hành và thao tác: Cho phép người thiết kế tương tác và thao tác với mô hình 3D hiệu quả hơn.

Và những điểm trên là nơi chuyên môn của con người có thể tiếp tục đóng một vai trò quan trọng.

Giáo sư Su Hao tin rằng trong tương lai, việc tạo dữ liệu 3D do AI điều khiển sẽ có các đặc điểm sau:

  1. Hỗ trợ tạo mô hình 3D hỗ trợ ứng dụng tương tác Tương tác này bao gồm cả tương tác vật lý giữa các đối tượng (như va chạm) và tương tác giữa người và vật (phương thức tương tác vật lý và phi vật lý), tạo dữ liệu 3D trong game , metaverse, mô phỏng vật lý và các kịch bản khác có thể được sử dụng rộng rãi;

  2. Hỗ trợ tạo nội dung 3D do AI hỗ trợ, giúp mô hình hóa hiệu quả hơn;

  3. Hỗ trợ quá trình tạo Human-in-the-loop và sử dụng tài năng nghệ thuật của con người để cải thiện chất lượng dữ liệu được tạo, từ đó cải thiện hơn nữa hiệu suất mô hình hóa và hình thành hiệu ứng bánh đà dữ liệu vòng kín.

Tương tự như sự phát triển đáng kinh ngạc của các công nghệ như DALL-E và ChatGPT trong 18 tháng qua, chúng tôi tin chắc rằng trong lĩnh vực 3D AIGC, sự đổi mới và ứng dụng của nó rất có khả năng vượt quá mong đợi của chúng tôi và Silicon Rabbit sẽ tiếp tục khám phá sâu hơn và đầu ra.

Xem bản gốc
  • Phần thưởng
  • Bình luận
  • Chia sẻ
Bình luận
Không có bình luận