Phá vỡ rào cản dữ liệu AI: Tại sao Data DAOs quan trọng ngay bây giờ

Trung cấpJul 14, 2024
Bài viết này xem xét các hạn chế hiện tại của nguồn dữ liệu AI và gợi ý rằng Data DAOs có thể cung cấp bộ dữ liệu mới, chất lượng cao để nâng cao các mô hình AI. Data DAOs có thể tăng cường việc huấn luyện AI với dữ liệu thế giới thực, dữ liệu sức khỏe cá nhân và phản hồi của con người, nhưng họ cũng đối mặt với các thách thức như méo mó xúc tiến, xác minh dữ liệu và đánh giá lợi ích.
Phá vỡ rào cản dữ liệu AI: Tại sao Data DAOs quan trọng ngay bây giờ

Các thỏa thuận ủy quyền dữ liệu đáng chú ý gần đây, như những thỏa thuận giữa openai và news corp và reddit, nhấn mạnh nhu cầu về dữ liệu chất lượng cao trong trí tuệ nhân tạo. Các mô hình trí tuệ nhân tạo hàng đầu đã được đào tạo trên một phần đáng kể của internet. Ví dụ, common crawl đã chỉ mục khoảng 10% trang web để đào tạo mô hình ngôn ngữ lớn, bao gồm hơn 100 nghìn tỷ mã thông báo.

Để cải thiện mô hình trí tuệ nhân tạo hơn nữa, việc mở rộng và tăng cường dữ liệu có sẵn để huấn luyện là rất quan trọng. Chúng tôi đã đang thảo luận về cách tổng hợp dữ liệu, đặc biệt là thông qua các phương pháp phi tập trung. Chúng tôi đặc biệt quan tâm đến cách tiếp cận phi tập trung có thể giúp tạo ra các bộ dữ liệu mới và cung cấp động lực kinh tế cho người đóng góp và người sáng tạo.

Trong những năm gần đây, một trong những chủ đề nóng trong thế giới tiền điện tử là khái niệm data dao, đó là những nhóm người tạo ra, tổ chức và quản lý dữ liệu. Trong khi chủ đề này đã được Multicoin và những người khác thảo luận, sự tiến bộ nhanh chóng của trí tuệ nhân tạo đặt ra một câu hỏi mới: "Tại sao bây giờ là thời điểm thích hợp cho data dao?"

Trong bài viết này, chúng tôi sẽ chia sẻ quan điểm của mình về các Data DAO để giải quyết câu hỏi: Làm thế nào Data DAO có thể tăng tốc cho sự phát triển của trí tuệ nhân tạo?

1. trạng thái hiện tại của dữ liệu trong trí tuệ nhân tạo

Ngày nay, các mô hình AI chủ yếu được đào tạo trên dữ liệu công cộng, thông qua việc hợp tác với các công ty như news corp và reddit hoặc bằng cách thu thập dữ liệu từ internet mở. Ví dụ, Llama 3 của Meta đã được đào tạo bằng 15 nghìn tỷ tokens từ các nguồn công cộng. Mặc dù các phương pháp này hiệu quả trong việc thu thập nhanh lượng lớn dữ liệu, nhưng chúng có những giới hạn về loại dữ liệu được thu thập và cách thu thập dữ liệu này.

Đầu tiên, liên quan đến dữ liệu nào cần được thu thập: Phát triển AI bị cản trở bởi các nút thắt cổ chai về chất lượng và số lượng dữ liệu. Leopold Aschenbrenner đã thảo luận về "bức tường dữ liệu" hạn chế các cải tiến thuật toán hơn nữa: "Chẳng bao lâu nữa, cách tiếp cận đơn giản của việc đào tạo trước các mô hình ngôn ngữ lớn hơn trên dữ liệu được thu thập nhiều hơn có thể phải đối mặt với những tắc nghẽn đáng kể."

Một cách để vượt qua rào cản dữ liệu là làm cho các tập dữ liệu mới có sẵn. Ví dụ, các công ty mô hình không thể lấy dữ liệu được bảo vệ bằng mật khẩu mà không vi phạm các điều khoản dịch vụ của hầu hết các trang web, và họ không thể truy cập vào dữ liệu chưa được thu thập. Hiện nay, có một lượng lớn dữ liệu riêng tư mà việc đào tạo trí tuệ nhân tạo không thể truy cập, chẳng hạn như dữ liệu từ Google Drive, Slack, hồ sơ sức khỏe cá nhân và thông tin riêng tư khác.

Thứ hai, liên quan đến cách thu thập dữ liệu: trong mô hình hiện tại, các công ty thu thập dữ liệu thu được phần lớn giá trị. Báo cáo s-1 của reddit nhấn mạnh việc cấp phép dữ liệu là một nguồn doanh thu quan trọng: “chúng tôi kỳ vọng ưu thế dữ liệu và sở hữu trí tuệ của chúng tôi sẽ tiếp tục là các yếu tố chính trong quá trình đào tạo llm trong tương lai.” Tuy nhiên, người dùng cuối cùng tạo ra nội dung thực tế không nhận được bất kỳ lợi ích kinh tế nào từ các thỏa thuận cấp phép này hoặc các mô hình trí tuệ nhân tạo chính mình. Sự không phù hợp này có thể làm giảm sự tham gia - đã có các phong trào kiện các công ty trí tuệ nhân tạo sinh sản hoặc không tham gia vào các bộ dữ liệu đào tạo. Ngoài ra, tập trung doanh thu vào tay các công ty mô hình hoặc nền tảng mà không chia sẻ với người dùng cuối có những tác động xã hội kinh tế đáng kể.

2. tác động của các DAO dữ liệu

các vấn đề về dữ liệu được đề cập trước đó chia sẻ một chủ đề chung: chúng được hưởng lợi từ những đóng góp đáng kể từ các mẫu người dùng đa dạng và đại diện. trong khi bất kỳ điểm dữ liệu đơn lẻ nào có thể có tác động không đáng kể đến hiệu suất mô hình, tổng thể, một nhóm lớn người dùng có thể tạo ra các bộ dữ liệu mới rất có giá trị cho huấn luyện trí tuệ nhân tạo. đây là lúc mà tổ chức tự trị phi tập trung (data daos) xuất hiện. với data daos, các nhà đóng góp dữ liệu có thể kiếm được phần thưởng kinh tế cho việc cung cấp dữ liệu và có thể kiểm soát cách dữ liệu của họ được sử dụng và tiền hóa.

Trong những lĩnh vực nào mà data daos có thể tạo ra một tác động đáng kể trong cảnh quan dữ liệu hiện tại? Dưới đây là một số ý tưởng—đây không phải là một danh sách toàn diện, và data daos chắc chắn còn có những cơ hội khác:

(1) dữ liệu thực tế
Trong lĩnh vực cơ sở hạ tầng vật lý phi tập trung (depin), các mạng như hivemapper nhắm đến việc thu thập dữ liệu bản đồ toàn cầu mới nhất bằng cách khuyến khích chủ sở hữu dashcam chia sẻ dữ liệu của họ và khuyến khích người dùng cung cấp dữ liệu thông qua ứng dụng của họ (ví dụ, thông tin về đóng cửa đường hoặc sửa chữa). depin có thể được coi là một hệ thống dữ liệu thực tế dao, nơi tập hợp dữ liệu từ các thiết bị phần cứng và/hoặc mạng người dùng. Dữ liệu này có giá trị thương mại đối với nhiều công ty, và người đóng góp được thưởng bằng mã thông báo.

(2) dữ liệu sức khỏe cá nhân
Biohacking là một phong trào xã hội, trong đó cá nhân và cộng đồng áp dụng phương pháp tự làm để nghiên cứu sinh học, thường thực hiện các thí nghiệm trên bản thân. Ví dụ, ai đó có thể sử dụng các loại thuốc nootropic khác nhau để tăng cường hiệu suất não, thử nghiệm các liệu pháp hay thay đổi môi trường để cải thiện giấc ngủ, hoặc thậm chí tiêm chất liệu thử nghiệm vào cơ thể.

Các nỗ lực về biohacking này có thể được hỗ trợ bởi data daos thông qua việc tổ chức các thí nghiệm chia sẻ và thu thập kết quả một cách hệ thống từ các thành viên tham gia. Thu nhập được tạo ra từ các personal health daos như phòng thí nghiệm nghiên cứu hoặc các công ty dược phẩm có thể được trả lại cho những người tham gia đã đóng góp dữ liệu sức khỏe cá nhân của mình.

(3) học tăng cường với phản hồi từ con người
Học tăng cường với phản hồi từ con người (RLHF) liên quan đến việc sử dụng đầu vào từ con người để điều chỉnh mô hình trí tuệ nhân tạo và cải thiện hiệu suất của chúng. Thông thường, phản hồi đến từ các chuyên gia trong những lĩnh vực cụ thể có thể đánh giá hiệu quả đầu ra của mô hình. Ví dụ, một phòng thí nghiệm nghiên cứu có thể tìm sự trợ giúp từ một tiến sĩ toán học để tăng cường khả năng toán học của trí tuệ nhân tạo của họ. Phần thưởng token có thể thu hút và khích lệ các chuyên gia tham gia, cung cấp giá trị mạo hiểm và quyền truy cập toàn cầu thông qua hệ thống thanh toán tiền điện tử. Các công ty như Sapien, Fraction và Sahara đều đang tích cực làm việc trong lĩnh vực này.

(4) dữ liệu riêng
Khi dữ liệu công khai có sẵn để đào tạo AI trở nên khan hiếm, trọng tâm có thể chuyển sang các bộ dữ liệu độc quyền, bao gồm dữ liệu người dùng riêng tư. Đằng sau tường lửa đang chứa đựng một kho dữ liệu chất lượng cao vẫn bị khóa, chẳng hạn như tin nhắn và tài liệu riêng tư. Dữ liệu này có thể rất hiệu quả cho việc đào tạo AI cá nhân hóa và chứa đựng thông tin quý giá không có trên internet công khai.

Truy cập và sử dụng dữ liệu này đặt ra những thách thức pháp lý và đạo đức đáng kể. Data DAO có thể cung cấp một giải pháp bằng cách cho phép những người tham gia tự nguyện tải lên và tiền hóa dữ liệu của họ trong khi quản lý việc sử dụng nó. Ví dụ, một reddit data dao có thể cho phép người dùng tải lên dữ liệu reddit đã xuất, bao gồm nhận xét, bài đăng và lịch sử bỏ phiếu, có thể được bán hoặc cho thuê cho các công ty trí tuệ nhân tạo một cách bảo vệ quyền riêng tư. Các động cơ token cho phép người dùng kiếm không chỉ từ giao dịch một lần mà còn từ giá trị liên tục được tạo ra bởi các mô hình trí tuệ nhân tạo được huấn luyện với dữ liệu của họ.

3. vấn đề và thách thức mở

mặc dù các dữ liệu daos mang lại nhiều lợi ích tiềm năng đáng kể, nhưng cũng có một số yếu tố quan trọng và thách thức cần phải giải quyết.

(1) méo mó ưu đãi
Một bài học quan trọng từ lịch sử sử dụng động lực token trong cộng đồng tiền điện tử là phần thưởng từ bên ngoài có thể thay đổi hành vi người dùng. Điều này có ý nghĩa trực tiếp đối với việc sử dụng động lực token để thu thập dữ liệu: động lực có thể làm biến dạng nhóm tham gia và các loại dữ liệu mà họ cung cấp.

Việc giới thiệu cơ hội tiền thưởng cũng mở ra khả năng các thành viên lợi dụng hệ thống, chẳng hạn như việc gửi dữ liệu chất lượng thấp hoặc bịa đặt để tối đa hóa thu nhập của họ. Điều này rất quan trọng vì sự thành công của các Data DAO phụ thuộc vào chất lượng của dữ liệu. Nếu các đóng góp lệch khỏi mục tiêu mong muốn, giá trị của bộ dữ liệu có thể bị đe dọa.

(2) đo lường và thưởng cho dữ liệu

ý tưởng trung tâm của các dự án data daos là thưởng cho người đóng góp dữ liệu của họ bằng mã thông báo, điều này sẽ tạo ra doanh thu cho dao trong dài hạn. Tuy nhiên, do tính chủ quan của giá trị dữ liệu, việc xác định phần thưởng phù hợp cho các đóng góp dữ liệu khác nhau là rất thách thức. Ví dụ, trong kịch bản biohacking: liệu dữ liệu của một số người dùng có giá trị hơn không? Nếu có, những yếu tố nào xác định điều này? Đối với dữ liệu bản đồ: liệu thông tin từ một số khu vực có giá trị hơn từ các khu vực khác không? Làm thế nào để định lượng những khác biệt này? (Nghiên cứu về việc đo lường giá trị dữ liệu trong trí tuệ nhân tạo bằng cách đánh giá đóng góp tăng dần của dữ liệu đối với hiệu suất mô hình đang tiếp diễn nhưng có thể tốn nhiều tài nguyên tính toán.)

Hơn nữa, việc thành lập cơ chế mạnh mẽ để xác minh tính xác thực và chính xác của dữ liệu là điều cần thiết. Thiếu những biện pháp này, hệ thống có thể trở nên dễ bị tấn công bằng cách gửi dữ liệu gian lận (ví dụ, tạo tài khoản giả mạo) hoặc tấn công Sybil. Mạng lưới Depin giải quyết vấn đề này bằng cách tích hợp xác minh ở cấp độ thiết bị phần cứng, nhưng các loại DAO dữ liệu khác dựa vào đóng góp của người dùng có thể dễ bị thao túng hơn.

(3) giá trị tăng dần của dữ liệu mới
Hầu hết các mạng mở đã được tận dụng cho mục đích đào tạo, vì vậy các nhà điều hành dữ liệu DAO phải xem xét liệu các bộ dữ liệu được thu thập theo cách phi tập trung có thực sự thêm giá trị tăng tiến cho dữ liệu hiện có trên các mạng mở, và liệu các nhà nghiên cứu có thể truy cập vào dữ liệu này từ nền tảng hay thông qua các phương tiện khác. Ý tưởng này nhấn mạnh sự quan trọng của việc thu thập dữ liệu hoàn toàn mới vượt qua những gì hiện có, dẫn đến xem xét tiếp theo: quy mô tác động và cơ hội doanh thu.

(4) đánh giá cơ hội doanh thu
Ở cơ bản, các DAO dữ liệu đang xây dựng một thị trường hai bên kết nối người mua dữ liệu với người đóng góp dữ liệu. Do đó, thành công của một DAO dữ liệu phụ thuộc vào khả năng thu hút một cơ sở khách hàng ổn định và đa dạng sẵn lòng trả tiền cho dữ liệu.

Các data dao cần xác định và xác nhận nhu cầu cho dữ liệu của họ và đảm bảo rằng cơ hội thu nhập đủ lớn (dù là tổng thể hoặc trên mỗi người đóng góp) để thúc đẩy số lượng và chất lượng dữ liệu cần thiết. Ví dụ, ý tưởng tạo ra một user data dao để tổng hợp các sở thích cá nhân và dữ liệu duyệt web cho mục đích quảng cáo đã được thảo luận trong nhiều năm, nhưng tiềm năng thu nhập cho người dùng có thể là rất nhỏ. (Về ngữ cảnh, ARPU toàn cầu của Meta là 13,12 đô la vào cuối năm 2023.) Với các công ty AI dự định đầu tư hàng nghìn tỷ đô la vào đào tạo, tiềm năng thu nhập từ dữ liệu có thể đủ để khuyến khích đóng góp quy mô lớn, đặt ra một câu hỏi hấp dẫn cho các data dao: "Tại sao lại bây giờ?"

4. phá vỡ tường dữ liệu

Các dự án DAO dữ liệu đang cung cấp một giải pháp hứa hẹn cho việc tạo ra các bộ dữ liệu mới chất lượng cao và phá vỡ bức tường dữ liệu đang thách thức trí tuệ nhân tạo. Trong khi phương pháp chính xác để đạt được điều này vẫn chưa được xác định, chúng tôi rất háo hức để xem cách lĩnh vực này phát triển.

phước

  1. bài viết này được in từ [ Tài chính Jinse], và bản quyền thuộc về tác giả gốc [li jin]. Nếu bạn có bất kỳ ý kiến ​​nào về việc tái bản này, vui lòng liên hệ với đội ngũ học tập của Gate.[email protected].đội ngũ sẽ nhanh chóng giải quyết mọi lo ngại theo các quy trình liên quan.
  2. miễn trừ trách nhiệm: quan điểm và ý kiến được biểu đạt trong bài viết này chỉ thuộc về tác giả một mình và không đại diện cho bất kỳ lời khuyên đầu tư nào.
  3. Các phiên bản ngôn ngữ khác của bài viết này đã được dịch bởi đội ngũ Gate Learn mà không đề cập đếnGate.ioCác bài báo dịch có thể không được sao chép, phân phối hoặc đạo văn.

Phá vỡ rào cản dữ liệu AI: Tại sao Data DAOs quan trọng ngay bây giờ

Trung cấpJul 14, 2024
Bài viết này xem xét các hạn chế hiện tại của nguồn dữ liệu AI và gợi ý rằng Data DAOs có thể cung cấp bộ dữ liệu mới, chất lượng cao để nâng cao các mô hình AI. Data DAOs có thể tăng cường việc huấn luyện AI với dữ liệu thế giới thực, dữ liệu sức khỏe cá nhân và phản hồi của con người, nhưng họ cũng đối mặt với các thách thức như méo mó xúc tiến, xác minh dữ liệu và đánh giá lợi ích.
Phá vỡ rào cản dữ liệu AI: Tại sao Data DAOs quan trọng ngay bây giờ

Các thỏa thuận ủy quyền dữ liệu đáng chú ý gần đây, như những thỏa thuận giữa openai và news corp và reddit, nhấn mạnh nhu cầu về dữ liệu chất lượng cao trong trí tuệ nhân tạo. Các mô hình trí tuệ nhân tạo hàng đầu đã được đào tạo trên một phần đáng kể của internet. Ví dụ, common crawl đã chỉ mục khoảng 10% trang web để đào tạo mô hình ngôn ngữ lớn, bao gồm hơn 100 nghìn tỷ mã thông báo.

Để cải thiện mô hình trí tuệ nhân tạo hơn nữa, việc mở rộng và tăng cường dữ liệu có sẵn để huấn luyện là rất quan trọng. Chúng tôi đã đang thảo luận về cách tổng hợp dữ liệu, đặc biệt là thông qua các phương pháp phi tập trung. Chúng tôi đặc biệt quan tâm đến cách tiếp cận phi tập trung có thể giúp tạo ra các bộ dữ liệu mới và cung cấp động lực kinh tế cho người đóng góp và người sáng tạo.

Trong những năm gần đây, một trong những chủ đề nóng trong thế giới tiền điện tử là khái niệm data dao, đó là những nhóm người tạo ra, tổ chức và quản lý dữ liệu. Trong khi chủ đề này đã được Multicoin và những người khác thảo luận, sự tiến bộ nhanh chóng của trí tuệ nhân tạo đặt ra một câu hỏi mới: "Tại sao bây giờ là thời điểm thích hợp cho data dao?"

Trong bài viết này, chúng tôi sẽ chia sẻ quan điểm của mình về các Data DAO để giải quyết câu hỏi: Làm thế nào Data DAO có thể tăng tốc cho sự phát triển của trí tuệ nhân tạo?

1. trạng thái hiện tại của dữ liệu trong trí tuệ nhân tạo

Ngày nay, các mô hình AI chủ yếu được đào tạo trên dữ liệu công cộng, thông qua việc hợp tác với các công ty như news corp và reddit hoặc bằng cách thu thập dữ liệu từ internet mở. Ví dụ, Llama 3 của Meta đã được đào tạo bằng 15 nghìn tỷ tokens từ các nguồn công cộng. Mặc dù các phương pháp này hiệu quả trong việc thu thập nhanh lượng lớn dữ liệu, nhưng chúng có những giới hạn về loại dữ liệu được thu thập và cách thu thập dữ liệu này.

Đầu tiên, liên quan đến dữ liệu nào cần được thu thập: Phát triển AI bị cản trở bởi các nút thắt cổ chai về chất lượng và số lượng dữ liệu. Leopold Aschenbrenner đã thảo luận về "bức tường dữ liệu" hạn chế các cải tiến thuật toán hơn nữa: "Chẳng bao lâu nữa, cách tiếp cận đơn giản của việc đào tạo trước các mô hình ngôn ngữ lớn hơn trên dữ liệu được thu thập nhiều hơn có thể phải đối mặt với những tắc nghẽn đáng kể."

Một cách để vượt qua rào cản dữ liệu là làm cho các tập dữ liệu mới có sẵn. Ví dụ, các công ty mô hình không thể lấy dữ liệu được bảo vệ bằng mật khẩu mà không vi phạm các điều khoản dịch vụ của hầu hết các trang web, và họ không thể truy cập vào dữ liệu chưa được thu thập. Hiện nay, có một lượng lớn dữ liệu riêng tư mà việc đào tạo trí tuệ nhân tạo không thể truy cập, chẳng hạn như dữ liệu từ Google Drive, Slack, hồ sơ sức khỏe cá nhân và thông tin riêng tư khác.

Thứ hai, liên quan đến cách thu thập dữ liệu: trong mô hình hiện tại, các công ty thu thập dữ liệu thu được phần lớn giá trị. Báo cáo s-1 của reddit nhấn mạnh việc cấp phép dữ liệu là một nguồn doanh thu quan trọng: “chúng tôi kỳ vọng ưu thế dữ liệu và sở hữu trí tuệ của chúng tôi sẽ tiếp tục là các yếu tố chính trong quá trình đào tạo llm trong tương lai.” Tuy nhiên, người dùng cuối cùng tạo ra nội dung thực tế không nhận được bất kỳ lợi ích kinh tế nào từ các thỏa thuận cấp phép này hoặc các mô hình trí tuệ nhân tạo chính mình. Sự không phù hợp này có thể làm giảm sự tham gia - đã có các phong trào kiện các công ty trí tuệ nhân tạo sinh sản hoặc không tham gia vào các bộ dữ liệu đào tạo. Ngoài ra, tập trung doanh thu vào tay các công ty mô hình hoặc nền tảng mà không chia sẻ với người dùng cuối có những tác động xã hội kinh tế đáng kể.

2. tác động của các DAO dữ liệu

các vấn đề về dữ liệu được đề cập trước đó chia sẻ một chủ đề chung: chúng được hưởng lợi từ những đóng góp đáng kể từ các mẫu người dùng đa dạng và đại diện. trong khi bất kỳ điểm dữ liệu đơn lẻ nào có thể có tác động không đáng kể đến hiệu suất mô hình, tổng thể, một nhóm lớn người dùng có thể tạo ra các bộ dữ liệu mới rất có giá trị cho huấn luyện trí tuệ nhân tạo. đây là lúc mà tổ chức tự trị phi tập trung (data daos) xuất hiện. với data daos, các nhà đóng góp dữ liệu có thể kiếm được phần thưởng kinh tế cho việc cung cấp dữ liệu và có thể kiểm soát cách dữ liệu của họ được sử dụng và tiền hóa.

Trong những lĩnh vực nào mà data daos có thể tạo ra một tác động đáng kể trong cảnh quan dữ liệu hiện tại? Dưới đây là một số ý tưởng—đây không phải là một danh sách toàn diện, và data daos chắc chắn còn có những cơ hội khác:

(1) dữ liệu thực tế
Trong lĩnh vực cơ sở hạ tầng vật lý phi tập trung (depin), các mạng như hivemapper nhắm đến việc thu thập dữ liệu bản đồ toàn cầu mới nhất bằng cách khuyến khích chủ sở hữu dashcam chia sẻ dữ liệu của họ và khuyến khích người dùng cung cấp dữ liệu thông qua ứng dụng của họ (ví dụ, thông tin về đóng cửa đường hoặc sửa chữa). depin có thể được coi là một hệ thống dữ liệu thực tế dao, nơi tập hợp dữ liệu từ các thiết bị phần cứng và/hoặc mạng người dùng. Dữ liệu này có giá trị thương mại đối với nhiều công ty, và người đóng góp được thưởng bằng mã thông báo.

(2) dữ liệu sức khỏe cá nhân
Biohacking là một phong trào xã hội, trong đó cá nhân và cộng đồng áp dụng phương pháp tự làm để nghiên cứu sinh học, thường thực hiện các thí nghiệm trên bản thân. Ví dụ, ai đó có thể sử dụng các loại thuốc nootropic khác nhau để tăng cường hiệu suất não, thử nghiệm các liệu pháp hay thay đổi môi trường để cải thiện giấc ngủ, hoặc thậm chí tiêm chất liệu thử nghiệm vào cơ thể.

Các nỗ lực về biohacking này có thể được hỗ trợ bởi data daos thông qua việc tổ chức các thí nghiệm chia sẻ và thu thập kết quả một cách hệ thống từ các thành viên tham gia. Thu nhập được tạo ra từ các personal health daos như phòng thí nghiệm nghiên cứu hoặc các công ty dược phẩm có thể được trả lại cho những người tham gia đã đóng góp dữ liệu sức khỏe cá nhân của mình.

(3) học tăng cường với phản hồi từ con người
Học tăng cường với phản hồi từ con người (RLHF) liên quan đến việc sử dụng đầu vào từ con người để điều chỉnh mô hình trí tuệ nhân tạo và cải thiện hiệu suất của chúng. Thông thường, phản hồi đến từ các chuyên gia trong những lĩnh vực cụ thể có thể đánh giá hiệu quả đầu ra của mô hình. Ví dụ, một phòng thí nghiệm nghiên cứu có thể tìm sự trợ giúp từ một tiến sĩ toán học để tăng cường khả năng toán học của trí tuệ nhân tạo của họ. Phần thưởng token có thể thu hút và khích lệ các chuyên gia tham gia, cung cấp giá trị mạo hiểm và quyền truy cập toàn cầu thông qua hệ thống thanh toán tiền điện tử. Các công ty như Sapien, Fraction và Sahara đều đang tích cực làm việc trong lĩnh vực này.

(4) dữ liệu riêng
Khi dữ liệu công khai có sẵn để đào tạo AI trở nên khan hiếm, trọng tâm có thể chuyển sang các bộ dữ liệu độc quyền, bao gồm dữ liệu người dùng riêng tư. Đằng sau tường lửa đang chứa đựng một kho dữ liệu chất lượng cao vẫn bị khóa, chẳng hạn như tin nhắn và tài liệu riêng tư. Dữ liệu này có thể rất hiệu quả cho việc đào tạo AI cá nhân hóa và chứa đựng thông tin quý giá không có trên internet công khai.

Truy cập và sử dụng dữ liệu này đặt ra những thách thức pháp lý và đạo đức đáng kể. Data DAO có thể cung cấp một giải pháp bằng cách cho phép những người tham gia tự nguyện tải lên và tiền hóa dữ liệu của họ trong khi quản lý việc sử dụng nó. Ví dụ, một reddit data dao có thể cho phép người dùng tải lên dữ liệu reddit đã xuất, bao gồm nhận xét, bài đăng và lịch sử bỏ phiếu, có thể được bán hoặc cho thuê cho các công ty trí tuệ nhân tạo một cách bảo vệ quyền riêng tư. Các động cơ token cho phép người dùng kiếm không chỉ từ giao dịch một lần mà còn từ giá trị liên tục được tạo ra bởi các mô hình trí tuệ nhân tạo được huấn luyện với dữ liệu của họ.

3. vấn đề và thách thức mở

mặc dù các dữ liệu daos mang lại nhiều lợi ích tiềm năng đáng kể, nhưng cũng có một số yếu tố quan trọng và thách thức cần phải giải quyết.

(1) méo mó ưu đãi
Một bài học quan trọng từ lịch sử sử dụng động lực token trong cộng đồng tiền điện tử là phần thưởng từ bên ngoài có thể thay đổi hành vi người dùng. Điều này có ý nghĩa trực tiếp đối với việc sử dụng động lực token để thu thập dữ liệu: động lực có thể làm biến dạng nhóm tham gia và các loại dữ liệu mà họ cung cấp.

Việc giới thiệu cơ hội tiền thưởng cũng mở ra khả năng các thành viên lợi dụng hệ thống, chẳng hạn như việc gửi dữ liệu chất lượng thấp hoặc bịa đặt để tối đa hóa thu nhập của họ. Điều này rất quan trọng vì sự thành công của các Data DAO phụ thuộc vào chất lượng của dữ liệu. Nếu các đóng góp lệch khỏi mục tiêu mong muốn, giá trị của bộ dữ liệu có thể bị đe dọa.

(2) đo lường và thưởng cho dữ liệu

ý tưởng trung tâm của các dự án data daos là thưởng cho người đóng góp dữ liệu của họ bằng mã thông báo, điều này sẽ tạo ra doanh thu cho dao trong dài hạn. Tuy nhiên, do tính chủ quan của giá trị dữ liệu, việc xác định phần thưởng phù hợp cho các đóng góp dữ liệu khác nhau là rất thách thức. Ví dụ, trong kịch bản biohacking: liệu dữ liệu của một số người dùng có giá trị hơn không? Nếu có, những yếu tố nào xác định điều này? Đối với dữ liệu bản đồ: liệu thông tin từ một số khu vực có giá trị hơn từ các khu vực khác không? Làm thế nào để định lượng những khác biệt này? (Nghiên cứu về việc đo lường giá trị dữ liệu trong trí tuệ nhân tạo bằng cách đánh giá đóng góp tăng dần của dữ liệu đối với hiệu suất mô hình đang tiếp diễn nhưng có thể tốn nhiều tài nguyên tính toán.)

Hơn nữa, việc thành lập cơ chế mạnh mẽ để xác minh tính xác thực và chính xác của dữ liệu là điều cần thiết. Thiếu những biện pháp này, hệ thống có thể trở nên dễ bị tấn công bằng cách gửi dữ liệu gian lận (ví dụ, tạo tài khoản giả mạo) hoặc tấn công Sybil. Mạng lưới Depin giải quyết vấn đề này bằng cách tích hợp xác minh ở cấp độ thiết bị phần cứng, nhưng các loại DAO dữ liệu khác dựa vào đóng góp của người dùng có thể dễ bị thao túng hơn.

(3) giá trị tăng dần của dữ liệu mới
Hầu hết các mạng mở đã được tận dụng cho mục đích đào tạo, vì vậy các nhà điều hành dữ liệu DAO phải xem xét liệu các bộ dữ liệu được thu thập theo cách phi tập trung có thực sự thêm giá trị tăng tiến cho dữ liệu hiện có trên các mạng mở, và liệu các nhà nghiên cứu có thể truy cập vào dữ liệu này từ nền tảng hay thông qua các phương tiện khác. Ý tưởng này nhấn mạnh sự quan trọng của việc thu thập dữ liệu hoàn toàn mới vượt qua những gì hiện có, dẫn đến xem xét tiếp theo: quy mô tác động và cơ hội doanh thu.

(4) đánh giá cơ hội doanh thu
Ở cơ bản, các DAO dữ liệu đang xây dựng một thị trường hai bên kết nối người mua dữ liệu với người đóng góp dữ liệu. Do đó, thành công của một DAO dữ liệu phụ thuộc vào khả năng thu hút một cơ sở khách hàng ổn định và đa dạng sẵn lòng trả tiền cho dữ liệu.

Các data dao cần xác định và xác nhận nhu cầu cho dữ liệu của họ và đảm bảo rằng cơ hội thu nhập đủ lớn (dù là tổng thể hoặc trên mỗi người đóng góp) để thúc đẩy số lượng và chất lượng dữ liệu cần thiết. Ví dụ, ý tưởng tạo ra một user data dao để tổng hợp các sở thích cá nhân và dữ liệu duyệt web cho mục đích quảng cáo đã được thảo luận trong nhiều năm, nhưng tiềm năng thu nhập cho người dùng có thể là rất nhỏ. (Về ngữ cảnh, ARPU toàn cầu của Meta là 13,12 đô la vào cuối năm 2023.) Với các công ty AI dự định đầu tư hàng nghìn tỷ đô la vào đào tạo, tiềm năng thu nhập từ dữ liệu có thể đủ để khuyến khích đóng góp quy mô lớn, đặt ra một câu hỏi hấp dẫn cho các data dao: "Tại sao lại bây giờ?"

4. phá vỡ tường dữ liệu

Các dự án DAO dữ liệu đang cung cấp một giải pháp hứa hẹn cho việc tạo ra các bộ dữ liệu mới chất lượng cao và phá vỡ bức tường dữ liệu đang thách thức trí tuệ nhân tạo. Trong khi phương pháp chính xác để đạt được điều này vẫn chưa được xác định, chúng tôi rất háo hức để xem cách lĩnh vực này phát triển.

phước

  1. bài viết này được in từ [ Tài chính Jinse], và bản quyền thuộc về tác giả gốc [li jin]. Nếu bạn có bất kỳ ý kiến ​​nào về việc tái bản này, vui lòng liên hệ với đội ngũ học tập của Gate.[email protected].đội ngũ sẽ nhanh chóng giải quyết mọi lo ngại theo các quy trình liên quan.
  2. miễn trừ trách nhiệm: quan điểm và ý kiến được biểu đạt trong bài viết này chỉ thuộc về tác giả một mình và không đại diện cho bất kỳ lời khuyên đầu tư nào.
  3. Các phiên bản ngôn ngữ khác của bài viết này đã được dịch bởi đội ngũ Gate Learn mà không đề cập đếnGate.ioCác bài báo dịch có thể không được sao chép, phân phối hoặc đạo văn.
Bắt đầu giao dịch
Đăng ký và giao dịch để nhận phần thưởng USDTEST trị giá
$100
$5500