Tranh luận cà phê lớn AIGC: làm thế nào để cưỡi sóng gió trong thời kỳ bùng nổ AI

Nguồn: Lôi Phong Net

Tác giả: Dong Zibo Wang Yue

Tiêu đề gốc: "AIGC: Dưới sự trỗi dậy, đâu là biên giới?丨GAIR 2023》

Từ vẽ tranh đến làm thơ, từ viết quảng cáo đến xếp bàn, từ PPT đến viết code, nếu cách đây hơn chục tháng mà ai đó nói rằng AI có thể làm được tất cả những công việc này thì sẽ ít người tin.

Tuy nhiên, tốc độ phát triển của công nghệ luôn bùng nổ, trước khi kết thúc năm 2023, làn sóng AI sáng tạo đã càn quét toàn bộ giới công nghệ, khiến con người mê mẩn và đổ xô vào nó.

Tại Hội nghị người máy và trí tuệ nhân tạo toàn cầu GAIR lần thứ 7 được đồng tài trợ bởi Viện nghiên cứu GAIR, Leifeng.com, Nhà xuất bản Khoa học và Công nghệ Thế giới và Tập đoàn tư vấn Kotler, tất cả các tên tuổi lớn trong lĩnh vực AIGC đã tập trung tại khách sạn Orchard ở Singapore để trình bày Thế giới chia sẻ kiến thức trực tiếp và mới nhất của họ về AI tổng quát.

Các diễn giả đã tham gia GAIR AIGC và diễn đàn phụ nội dung tổng quát là:

Pan Xingang, Trợ lý Giáo sư, Trường Khoa học và Kỹ thuật Máy tính, Đại học Công nghệ Nanyang Congxing Cai, Người sáng lập joinrealm.ai Người sáng lập cộng đồng Help&Grow tại Singapore, Wang Tong CTO Tập đoàn Lizhi, Ding Ning Nhà khoa học nghiên cứu cấp cao, Đại học Công nghệ Nanyang; Người sáng lập Deepir Inc., Wu Pengcheng Giám đốc Trung tâm thuật toán phát hành trò chơi ở nước ngoài của Tencent, Lang Jun

Trong đường đua AI nóng bỏng hiện nay, làm thế nào để giữ đầu óc tỉnh táo và chắt lọc những đổi mới trong công nghệ, sản phẩm và mô hình kinh doanh? Những hiểu biết sâu sắc của các khách mời tại cuộc họp là gì, để họ có thể cưỡi sóng làm gió trong sự bùng nổ của trí tuệ nhân tạo AI?

Đại học Công nghệ Nanyang Pan Xingang: Kéo và thả các điểm chính của nội dung trực quan, chúng tôi không sử dụng mô hình khuếch tán

Khi nhắc đến AIGC, trong đường đua hiện tại, chắc hẳn mọi người sẽ luôn nghĩ đến MidJourney, được đánh giá rất cao ở nước ngoài, và sự hỗ trợ kỹ thuật đằng sau nó – mô hình khuếch tán.

Tuy nhiên, Pan Xingang, một trợ lý giáo sư của Trường Khoa học và Kỹ thuật Máy tính của Đại học Công nghệ Nanyang, người từng theo học giáo sư Tang Xiaoou ở Hồng Kông, đã dứt khoát từ bỏ mô hình phổ biến trong "chỉnh sửa kéo và thả" mới nhất của mình. các điểm chính của nội dung trực quan". Một kỹ thuật "cũ" hơn được sử dụng - mạng đối đầu chung (GAN).

Nhiều người nhìn thấy khả năng mạnh mẽ của AI trong việc tạo ra hình ảnh và nghĩ rằng thời đại của AIGC đã đến, nhưng Pan Xingang nhận thấy rằng "tạo ra hình ảnh" thường không phải là bước cuối cùng trong quá trình sáng tạo của người dùng.

Những điều chỉnh sau đó đối với hình ảnh—đặc biệt là các yếu tố hình ảnh do AI tạo ra thường đầy bất ổn, để đáp ứng nhu cầu của người dùng, cần cho phép người dùng tinh chỉnh từng yếu tố trong hình ảnh trong giai đoạn sau.

Ví dụ, AI đã tạo ra một con sư tử rất chân thực, nếu người dùng muốn quay đầu sư tử, di chuyển vị trí của nó, thậm chí thay đổi biểu cảm của con sư tử, rất khó để làm điều đó ở dạng sản phẩm hiện tại.

Các thao tác này nghe có vẻ đơn giản, nhưng tất cả đều nhằm kiểm soát tốt các thuộc tính không gian của các đối tượng và chúng vẫn phải đối mặt với những thách thức kỹ thuật lớn.

Trước đây, có một cách làm theo ý tưởng sơ đồ của Vincent, chỉnh sửa hình ảnh theo hướng dẫn của văn bản - ví dụ: "di chuyển mũi sư tử sang phải 30 pixel".

Nhưng cũng có vấn đề với giải pháp này:

Một mặt, mô hình văn bản phải có hiểu biết đủ mạnh về các thuộc tính không gian của các đối tượng để đáp ứng các nhu cầu và phương pháp chỉnh sửa khác nhau của người dùng và giúp tương tác trực quan hơn;

Mặt khác, đối với một mô hình ngôn ngữ, rất khó để hiểu chính xác độ dài và kích thước trong một hình ảnh, điều này cũng gây ra nhiều rắc rối cho việc chỉnh sửa nội dung trực quan.

Ở cấp độ tương tác, đối với người dùng, trực quan và dễ sử dụng nhất chắc chắn là tương tác kéo và thả; ở cấp độ triển khai kỹ thuật, người dùng chỉ cần chỉ định điểm lấy màu đỏ và điểm mục tiêu màu xanh lam, và AI sẽ di chuyển phần ngữ nghĩa của hình ảnh tương ứng với chấm đỏ đến vị trí của chấm xanh để đạt được hiệu quả chỉnh sửa các thuộc tính không gian của hình ảnh.

Trước đây, một số người đã phát triển các chức năng tương tự, nhưng thông thường hình ảnh cần chỉnh sửa cần được chia lưới và có một số giả định nhất định về chiều cao của đối tượng - hình ảnh đã chỉnh sửa chỉ là biến dạng 2D của hình ảnh gốc, có no không thể tạo nội dung mới.

Nó phải vừa chính xác vừa tạo ra nội dung, Pan Xingang đã không sử dụng mô hình khuếch tán nóng nhất hiện nay khi nghiên cứu và phán đoán kỹ thuật, mà chọn công nghệ mạng đối đầu tạo ra. Trước hết, không gian hình ảnh được mô tả bởi GAN là rất liên tục, liên tục hơn nhiều so với mô hình khuếch tán; thứ hai, không gian tiềm ẩn của liên hệ GAN rất phù hợp để chỉnh sửa các thuộc tính.

Với sự phát triển hơn nữa trong nghiên cứu của nhóm Pan Xingang, họ đã hỗ trợ chỉnh sửa đa điểm trên cơ sở ban đầu, có thể thay đổi tư thế của các đối tượng trong ảnh, thiết kế lại hình dạng của ô tô hoặc thay đổi góc nhìn của ô tô, vì vậy rằng một con mèo con Mở một mắt và nhắm một mắt, thay đổi kiểu tóc hoặc biểu cảm, tư thế hoặc độ dài quần áo của bức chân dung để người dùng có thể chỉnh sửa hình ảnh thuận tiện hơn và thậm chí hoàn thành việc tạo nội dung video theo cách này.

Hiện tại, tác phẩm này đã được mã nguồn mở trên GitHub và đã đạt được 32.000 Sao.

Trong tương lai, sự kết hợp giữa GAN và mô hình khuếch tán là tầm nhìn của Pan Xingang đối với công việc đang được thực hiện - không chỉ khả năng tạo ra mô hình khuếch tán mà còn cả những ưu điểm của GAN trong chỉnh sửa hình ảnh và cũng có thể áp dụng những khả năng này sang video và Trong nội dung 3D và 4D, AIGC trong tương lai sẽ thông minh hơn và dễ sử dụng hơn.

joinrealm.ai Congxing Cai: Xây dựng mạng xã hội dựa trên AIGC

Congxing Cai từ joinrealm.ai có ước mơ trở thành mạng xã hội AIGC.

Gia nhập Snapchat vào khoảng năm 2016 và chịu trách nhiệm phát triển sản phẩm video ngắn trong công ty, Cai Congxing đã trải qua thời kỳ phát triển siêu tốc của ngành công nghiệp video ngắn. Và sau khi TikTok trở thành một sản phẩm hiện tượng ở nước ngoài mà không cần phải bàn cãi, Cai Congxing đã có những suy nghĩ khác:

"Chúng tôi cảm thấy rằng trên con đường sản xuất nội dung video ngắn hiệu quả, mọi người đã đi theo một hướng nhất định; và trong tương lai, trong lĩnh vực video tổng hợp, ngành này chắc chắn sẽ có một bước đột phá mới."

Vì vậy, Congxing Cai và những người bạn của anh ấy đã thành lập joinrealm.ai.

Cai Congxing tin rằng AIGC là một khái niệm đặc biệt rộng và trừu tượng, và hướng đi của joinrealm.ai chủ yếu nằm ở trung gian giữa "cung cấp API trực tiếp" và "hoàn thành đổi mới tương tác giữa người và máy tính" - khám phá mô hình kinh doanh của việc sáng tạo nội dung.

"Tại sao phương thức tạo nội dung lại quan trọng? Dựa trên quan sát của chúng tôi về các video ngắn trong mười năm qua, một sự thay đổi lớn thực sự là do sự xuất hiện của máy ảnh thông minh. Sự phổ biến của máy ảnh thông minh, ở một mức độ lớn, không phải là chỉ Thay vì cung cấp cho mọi người một chiếc điện thoại di động, nó đã mang lại cho thế giới hàng tỷ cơ sở hạ tầng di động."

Từ "từ" đến "câu chuyện" là chìa khóa cốt lõi trong hoạt động kinh doanh của joinrealm.ai - với sự trợ giúp của AI, người dùng có thể trình bày nội dung trong tâm trí họ dưới dạng hình ảnh, giống như một "máy ảnh tư duy".

Để đạt được hiệu quả này, Cai Congxing đã phát hiện ra trong quá trình khám phá joinrealm.ai rằng vẫn còn nhiều vấn đề cần giải quyết:

Trước hết, vẫn có những điểm khác biệt với ngôn ngữ tự nhiên - xét cho cùng, nó vẫn là ngôn ngữ lập trình mà công chúng khó hiểu bằng trực giác, người dùng vẫn phải trải qua rất nhiều bước "thử-thất bại-thử". để tạo nội dung họ muốn;

Thứ hai, mô hình cơ bản vẫn chưa thể đáp ứng đầy đủ nhu cầu của người dùng AIGC hiện nay, lấy Stable Diffusion làm ví dụ, tỷ lệ người dùng mới sẵn sàng chia sẻ nội dung được tạo hiện nay có lẽ chưa đến 20%;

Việc thiếu các khái niệm để người dùng có thể tinh chỉnh cũng là vấn đề lớn đầu tiên mà AIGC gặp phải hiện nay, người dùng khó kiểm soát việc tạo ra AI thông qua một tập hợp các khái niệm đã xác định và cũng khó kiểm soát chính họ. "kể chuyện";

Cuối cùng là sự cân bằng hiệu quả giữa kết quả tạo ra hình ảnh và chi phí, làm thế nào để tạo ra nội dung chất lượng cao hơn với mức giá thấp hơn cũng là một vấn đề mà AIGC không thể bỏ qua trong thời điểm hiện tại.

Để giải quyết những thách thức này, Cai Congxing và nhóm của ông đã gặp gỡ gần một trăm nhà sáng tạo AI có ảnh hưởng và nhận thấy rằng hầu hết các phương pháp sản xuất của họ là độc nhất và hiếm khi giống nhau, đồng thời họ đều sử dụng một số lượng lớn công cụ để liên tục gỡ lỗi và điều chỉnh.

Cuối cùng, joinrealm.ai quyết định hoàn thành nâng cấp ở ba điểm chính sau khi nghiên cứu và phán đoán:

Đầu tiên là chuỗi công cụ, giúp trải nghiệm người dùng tốt hơn bằng cách hoàn thành việc tối ưu hóa giao diện người dùng;

Thứ hai là cho phép người dùng xây dựng tinh chỉnh của riêng họ, ví dụ: sử dụng mô tả của "Tôi", sản phẩm có thể tạo ra hình ảnh họ muốn chính xác hơn dựa trên hình ảnh của chính người dùng.

Thứ ba là tự mình xây dựng một cộng đồng để người dùng có thể nhận được nhiều sự giảng dạy và cảm hứng hơn trong cộng đồng.

Thảo luận bàn tròn: AIGC "Tiến ra toàn cầu"

Wang Tong, người sáng lập cộng đồng Help&Grow ở Singapore, từng là người điều hành và thảo luận với Cai Congxing, người sáng lập joinrealm.ai, Ding Ning, CTO của Lychee Group, Wu Pengcheng, nhà khoa học nghiên cứu cấp cao tại Đại học Công nghệ Nanyang và người sáng lập Deepir Inc. , và Lang Jun, giám đốc Trung tâm thuật toán xuất bản trò chơi ở nước ngoài của Tencent Chủ đề nóng hiện nay là AIGC và nội dung sáng tạo.

Mô hình thương mại hóa của AIGC sẽ dễ dàng hơn trong lĩnh vực To B hay To C? Các vị khách dự tính chỗ đứng trong tương lai dựa trên kinh nghiệm của bản thân.

Lang Jun cho rằng To B không dễ thực hiện, bởi vì một giải pháp cần được trừu tượng hóa và tinh chỉnh dựa trên nhiều trường hợp thực tế khác nhau, về To C, nó có thể giúp nhiều game thủ nhanh chóng hòa nhập vào trò chơi khi vận hành trò chơi. Khi làm việc nội bộ về thuật toán, Lang Jun và nhóm cũng sẽ liên tục đánh giá loại mô hình nào có thể đào sâu cảnh hạ cánh của AIGC tốt hơn.

Wu Pengcheng nói rằng cả To B và To C đều có cơ hội, nhưng một công ty tuyệt vời phải là To C. Anh ấy đã kết hợp Máy ảnh Miaoya, kính Apple VR, phát trực tiếp bằng con người kỹ thuật số và các công ty khác đã đạt thành tích ở cấp độ ToC trong năm nay, nhấn mạnh rằng AIGC To C sẽ cho ra đời nhiều ứng dụng thú vị.

Ding Ning tin rằng việc thương mại hóa AIGC vẫn còn ở giai đoạn đầu, mặc dù có một số công ty đã đi đầu trong việc tạo ra thành tích, nhưng hầu hết trong số họ vẫn đang trên đường. Ông đặc biệt nhấn mạnh, đối với các doanh nhân công nghệ, họ không nên chỉ mải mê với công nghệ mà còn phải quan tâm đến nhu cầu và điểm đau của người dùng nhiều hơn. Về việc triển khai To B và To C, ông cho rằng To B có thị trường rộng lớn, cần năng lực và nguồn lực, trong khi To C cạnh tranh lớn, đòi hỏi sự nhạy bén về thị trường và khả năng vận hành cộng đồng. hứa hẹn trong tương lai.rộng rãi.

Về việc AIGC vươn ra nước ngoài và toàn cầu hóa, một số khách mời đã chia sẻ kinh nghiệm của họ.

Lang Jun quan sát thấy rằng đội ngũ trong nước có lợi thế về tài năng rất dày đặc, các kênh chia sẻ kiến thức hiệu quả và sự quan tâm mạnh mẽ đến ngành Internet, nhưng trên thực tế, không có nhiều nguồn lực cho việc phân bổ này ở nước ngoài. Ông nhấn mạnh AIGC hiện chưa có một mô hình kinh doanh đặc biệt trưởng thành nên ai có khả năng kết hợp nguồn lực tốt hơn sẽ dễ bị "vượt cạn".

Ding Ning tin rằng khi AIGC ra nước ngoài, trước tiên nó phải ra ngoài và hạ thấp con số của mình, không nhất thiết phải đạt được một mức sản phẩm nhất định, anh ấy nhận ra rằng rất khó để thành công trên thị trường cùng một lúc trong vòng hai đến ba năm. Ông nói thêm rằng điều rất quan trọng là phải tôn trọng thị trường nước ngoài, có sự khác biệt rất lớn về văn hóa, ngôn ngữ, luật pháp và các quy định, và cần phải hiểu rõ về thị trường địa phương.

Wu Pengcheng tin rằng AIGC có cơ hội lớn để ra nước ngoài, một mặt, công nghệ Trung Quốc có thể được sử dụng ở nước ngoài, mặt khác, nước ngoài cũng có nhu cầu địa phương, cả hai có thể được tích hợp sâu, điều này sẽ tạo ra lợi nhuận khổng lồ. giá trị. Đồng thời, cũng cần coi việc đi biển chỉ là bước đầu, cũng cần tính đến việc làm thế nào để đi ra nước ngoài tốt hơn.

Xem bản gốc

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

Không có bình luận

Chủ đề
#BTC#
101k Trạng thái
#GateioInto11#
64k Trạng thái
#ETH#
59k Trạng thái
4#ContentStar#
56k Trạng thái
5#BOME#
53k Trạng thái
6#SLERF#
46k Trạng thái
7#PIGCOIN#
44k Trạng thái
8#比特币#
43k Trạng thái
9#MAGA#
41k Trạng thái
10#NADA#
40k Trạng thái

sơ đồ trang web