Meta đã công bố khung AI audio2photoreal, có thể tạo ra các cảnh đối thoại nhân vật bằng cách nhập các tệp lồng tiếng

Bit News Meta gần đây đã công bố một khung AI có tên audio2photoreal, có khả năng tạo ra một loạt các mô hình nhân vật NPC thực tế và tự động "hát nhép" và "tạo dáng" các mô hình nhân vật với sự trợ giúp của các tệp lồng tiếng hiện có.

Báo cáo nghiên cứu chính thức chỉ ra rằng sau khi nhận được tệp lồng tiếng, khung photoreal Audio2 trước tiên sẽ tạo ra một loạt các mô hình NPC, sau đó sử dụng công nghệ lượng tử hóa và thuật toán khuếch tán để tạo ra các hành động mô hình, trong đó công nghệ lượng tử hóa cung cấp tham chiếu mẫu hành động cho khung và Thuật toán khuếch tán được sử dụng để cải thiện hiệu quả của các hành động nhân vật được tạo ra bởi khung hình.

Bốn mươi ba phần trăm những người đánh giá trong thí nghiệm có kiểm soát đã "hài lòng mạnh mẽ" với các cảnh đối thoại nhân vật được tạo ra bởi khung hình, vì vậy các nhà nghiên cứu cảm thấy rằng khung photoreal Audio2 có thể tạo ra các chuyển động "năng động và biểu cảm hơn" so với các sản phẩm cạnh tranh trong ngành. Được biết, nhóm nghiên cứu hiện đã công khai mã và bộ dữ liệu có liên quan trên GitHub.