Hệ thống Megabyte mới của Meta: Một bước đột phá trong việc vượt qua các rào cản cho GPTs

2023-06-07, 00:51

GPTs có thể dịch văn bản, tóm tắt dữ liệu và tạo nội dung phù hợp cho các mục đích khác nhau như tiếp thị.

Meta’s Megabyte nhằm vượt qua những khó khăn mà các hệ thống GPT khác như GPT-4 của OpenAi và ChatGPT đang phải đối mặt.

Megabyte khác biệt so với các mô hình GPT khác vì nó không sử dụng quá trình mã hóa.

Mô hình Megabyte bao gồm một bộ biến đổi cục bộ, một bộ nhúng và một bộ biến đổi toàn cầu.

Giới thiệu

Đổi mới công nghệ đã cách mạng hóa cách mà con người tương tác và thực hiện các nhiệm vụ khác nhau bao gồm cả cá nhân hoặc kinh doanh. Trí tuệ nhân tạo, còn được gọi là học máy, có thể thực hiện các hoạt động khác nhau như viết tiểu luận hoặc lập kế hoạch tài chính. Trong bài viết này, chúng tôi bàn về sự quan trọng của Generative Pre-trained Transformer (GPT) trong xử lý ngôn ngữ tự nhiên và các ứng dụng của nó. Chúng tôi cũng sẽ tập trung vào Hệ thống megabyte của Meta, vượt qua một số vấn đề cản trở cho GPTs.

Ý nghĩa của GPT trong xử lý ngôn ngữ tự nhiên

Các bộ biến áp được đào tạo tự động tạo ra (GPTs) có nhiều lợi ích trong các lĩnh vực khác nhau của nền kinh tế khi tăng cường năng suất và tăng cường nhận thức xã hội. Trước tiên, quan trọng là biết rằng GPTs tạo ra văn bản giống con người về nhiều chủ đề khác nhau.

Các GPT sử dụng các thông số khác nhau để xử lý dữ liệu và trình bày nó một cách dễ hiểu. Có các ứng dụng khác nhau sử dụng GPT để tạo ra giá trị cho con người và xã hội nói chung.

Cơ bản, GPT là các thành phần quan trọng của các ứng dụng trí tuệ nhân tạo, chuyển đổi thông tin từ một ngôn ngữ sang ngôn ngữ khác. Chúng cũng tạo ra và tóm tắt các lượng lớn dữ liệu thành thông tin dễ hiểu. Trong một số trường hợp, GPT cho phép tạo ra nội dung phù hợp cho các mục đích khác nhau như thơ, bài đăng trên blog, bài luận học thuật, tài liệu tiếp thị và meme, và nhiều mục đích khác.

Các doanh nghiệp cũng có thể sử dụng GPT để cung cấp năng lượng cho chatbot và trợ lý ảo có thể tương tác với con người theo cách nói chuyện, giúp họ hiểu biết về các khía cạnh kinh doanh hoặc xã hội khác nhau. Với mục đích kinh doanh, chúng có thể tạo ra phân tích cảm xúc về bất kỳ chủ đề hoặc lĩnh vực quan tâm. Ví dụ, có các giao thức được điều khiển bởi trí tuệ nhân tạo tạo ra tình hình thị trường tiền điện tử cho phép nhà giao dịch và các nhà đầu tư khác đưa ra quyết định đầu tư có căn cứ.

Các trường hợp sử dụng khác của GPT trong xử lý ngôn ngữ tự nhiên và ứng dụng AI bao gồm tạo nội dung cho sản phẩm tiếp thị, dịch vụ khách hàng, phân tích thông tin tài chính cũng như trích xuất dữ liệu và báo cáo, và nhiều trường hợp khác.

Giới hạn của các mô hình GPT truyền thống

Mặc dù có nhiều các loại GPT được tạo ra bởi các nền tảng khác nhau như ChatGPT và Openai, hầu hết chúng đều có những hạn chế nghiêm trọng.

Các mô hình trí tuệ nhân tạo sinh sản tốt nhất hiện nay bao gồm GPT-4 của OpenAI và ChatGPT sử dụng kiến trúc Transformer được giới thiệu bởi các nhà nghiên cứu của Google. Sự tăng về tỷ lệ tự chú ý và độ dài của đầu vào và đầu ra tạo ra một thách thức vì mỗi từ cần chú ý. Cơ bản, hệ thống này hoạt động tốt khi ít từ được sử dụng làm đầu vào.

Tuy nhiên, phương pháp Megabyte sử dụng một kiến trúc khác nhau chia các chuỗi đầu vào và đầu ra thành các mảnh thay vì các mã thông báo. Do đó, nó có thể xử lý nhiều từ hơn so với các mô hình hiện tại.

Ngoài ra, phương pháp của Meta giải quyết vấn đề về khả năng mở rộng mà hiện nay phổ biến trong hầu hết các mô hình trên thị trường. Cơ bản, mô hình Megabyte cho phép một mạng tiến đến đối ứng với một mảnh gồm nhiều mã thông báo. Do đó, hệ thống Megabyte của Meta hoạt động song song chứ không tuần tự. Điều này làm tăng hiệu suất của nó ngay cả khi mô hình cơ bản có nhiều tham số.

Đọc thêm: Meta Metaverse: Công ty đang làm việc vào cái gì?

Một số mô hình như mạng nơ-ron sâu phức tạp và khó hiểu, điều này có thể làm giảm sự tin cậy, trách nhiệm và nảy sinh ra những quan ngại đạo đức. Do đó, cần có những mô hình đơn giản như Meta Ai, dễ giải thích hơn. Điều này bởi vì hầu hết người dùng muốn biết hệ thống hoạt động như thế nào để có thể tin tưởng vào nó.

Vấn đề khác là một số mô hình này yêu cầu nhiều dữ liệu để được xác nhận và đào tạo. Tuy nhiên, dữ liệu như vậy có thể không có sẵn, làm giảm hiệu suất của chúng. Ngoài ra, các vấn đề liên quan đến quyền riêng tư, thiên vị, nhiễu, bảo mật cũng như độ không hoàn thiện của dữ liệu ảnh hưởng tiêu cực đến tính mạnh mẽ và hiệu suất của hầu hết các mô hình GPT.

Hầu hết các mô hình trí tuệ nhân tạo truyền thống đều đắt đỏ và tiêu tốn nhiều năng lượng khi thực hiện các phép tính. Điều này xảy ra vì hầu hết các hệ thống đều tập trung vào tính toán. Do đó, chúng tiêu tốn nhiều tài nguyên và tăng chi phí môi trường.

Ngoài ra, hầu hết các mô hình này có tính tương tác thấp do sự khác biệt trong việc tiêu chuẩn hóa của chúng. Do đó, rất khó để tích hợp chúng vì họ sử dụng ngôn ngữ, khung và định dạng khác nhau. Tuy nhiên, các định dạng mở như ONNX hoặc trình biên dịch thông dụng có thể tăng cường sự giao tiếp của chúng.

Quan trọng nhận ra rằng kiến trúc Meta AI được tạo ra một cách vượt qua hầu hết những vấn đề này.

Hệ thống Megabyte của Meta

Meta AI đã phát triển một công nghệ mới Hệ thống GPT được gọi là Megabyte với mục đích vượt qua quá trình mã hóa thành các mã thông báo mà hầu hết các mô hình GPT sử dụng. Hệ thống biến đổi tiền tố được đào tạo trước (GPT) của nó xử lý các khối lượng dữ liệu lớn như video và văn bản như tiểu thuyết mà không sử dụng quá trình mã hóa thành các mã thông báo.

Dưới dạng một điểm, hóa token hoạt động theo cách tương tự như nén tệp thông qua việc chuyển đổi lượng lớn dữ liệu thành các token. Bộ biến đổi xử lý các token để tạo ra các token đầu ra mà hệ thống giải mã.

Thông thường, việc mã hóa cho phép các mô hình trí tuệ nhân tạo chuyển đổi những chuỗi dữ liệu lớn thành số. Ví dụ, một hệ thống có thể chuyển đổi một cụm từ như “Màu yêu thích của tôi là màu đỏ” thành một chuỗi mã thông báo như “3666, 4004, 3124, 318, 2266, 13” sau đó được xử lý.

Tuy nhiên, với phương pháp này có một giới hạn về lượng dữ liệu nó xử lý. Ví dụ, giới hạn của GPT-3.5 là giữa 3.000 và 4.000 từ trong khi đó của GPT-4 là giữa 24.000 và 32.000 từ.

Ngược lại, Meta đã loại bỏ việc mã hóa token và chuyển sang kiến trúc dự đoán đa tầng mới mà phụ thuộc vào mô hình hóa end-to-end của hơn một triệu byte dữ liệu. Điều này là một thành tựu tuyệt vời khi có thể xử lý một tài liệu bao gồm đến 750.000 từ. Điều này có nghĩa là hệ thống Megabyte có thể xử lý dữ liệu chứa trong ba cuốn tiểu thuyết kích thước trung bình.

Như đã chú ý, Megabyte vượt qua những rào cản của quá trình mã hóa token do giới hạn dữ liệu cứng, thời gian đào tạo hệ thống và tiêu thụ năng lượng cao. Ngoài ra, không cần mã hóa token, có thể đào tạo các mô hình AI để hỗ trợ các ngôn ngữ không phải tiếng Anh có thể được mã hóa trong các ký tự tiêu chuẩn 8 bit, ví dụ.

Trí tuệ nhân tạo crypto AI của Meta sẽ mở rộng các cơ hội hiện có khi nó ngày càng phổ biến các công nghệ blockchain khác nhau. Ví dụ, các nhà phát triển có thể giới thiệu các bot giao dịch tiền điện tử bằng ngôn ngữ bản địa của họ như tiếng Nga hoặc tiếng Pháp. Quan trọng hơn, tổ chức tự trị phi tập trung (DAO) có thể mã hóa các giao thức của họ bằng các ngôn ngữ địa phương cũng như vậy.

Hệ thống Meta Megabyte hoạt động như thế nào

Megabyte, kiến trúc giải mã đa quy mô, mô hình các chuỗi dữ liệu dài hơn 1 triệu byte trong khi vẫn duy trì tính khác biệt từ đầu đến cuối. Nó sử dụng bộ biến đổi đa quy mô kết hợp các cấp độ khác nhau trong kiến trúc của họ, do đó mô hình cả các mẫu toàn cầu và cục bộ trong dữ liệu.

Cơ bản, mô hình Megabyte bao gồm ba thành phần, gồm một mô-đun cục bộ, một bộ nhúng và một mô-đun toàn cầu (biến đổi toàn cầu). Mô-đun cục bộ, còn được gọi là bộ biến đổi cục bộ, dự đoán các byte trong mỗi bản vá trong khi bộ nhúng chịu trách nhiệm mã hóa các bản vá bằng cách kết hợp các nhúng byte. Cuối cùng, mô-đun toàn cầu, còn được gọi là biến đổi toàn cầu, nhập và xuất các biểu diễn bản vá khác nhau.

Sơ đồ dưới đây cho thấy bản tổng quan Megabyte.

Sơ đồ trên cho thấy một số thành phần chính của Megabyte. Một thí nghiệm gần đây đã cho thấy rằng Megabyte có thể nhanh hơn 40% so với mô hình Transformer. Tuy nhiên, cần lưu ý rằng Megabyte được sử dụng trong thí nghiệm có 1,5 tỷ tham số trong khi Transformer chỉ có 350 triệu.

Nhìn chung, Megabyte có một số ưu điểm so với các bộ biến áp truyền thống. Ví dụ, nó giảm chi phí tính toán của tự chứng thực, điều này làm cho việc xử lý các chuỗi dài trở nên có thể.

Thứ hai, nó sử dụng các lớp feedforward cho mỗi đường đi thay vì mỗi vị trí, dẫn đến việc sử dụng tài nguyên tính toán hiệu quả.

Ngoài ra, nó tăng cườn song song lớn hơn trong quá trình xử lý dữ liệu, dữ liệu sinh câu trúc nhanh hơn trong khi duy trì hiệu suất cao.

Kiến trúc Megabyte cải thiện tính mở rộng, giảm tiêu thụ tài nguyên và cho phép giao tiếp mượt mà với các ứng dụng dựa trên GPT khác nhau. Nó đạt được một số lợi ích này thông qua việc chia các chuỗi dài thành hai chuỗi ngắn hơn, giảm thiểu chi phí chú ý tự. Ngoài ra, việc chia sẻ thông số và thuật toán nén giảm thiểu yêu cầu tài nguyên của GPT.

Kết thúc

Megabyte của Meta sử dụng hệ thống transformer được tạo ra sẵn để xử lý lượng dữ liệu lớn mà không sử dụng mã hóa thông qua token. Thay vào đó, nó sử dụng kiến trúc dự đoán đa tầng giảm thiểu chi phí, tăng tốc độ, cải thiện hiệu suất cũng như gia tăng khả năng mở rộng và tương thích.

Tác giả:Mashell C., Nghiên cứu viên của Gate.io
Bài viết này chỉ đại diện cho quan điểm của nhà nghiên cứu và không đề xuất bất kỳ gợi ý đầu tư nào.
Gate.io bảo lưu tất cả các quyền của bài viết này. Việc đăng lại bài viết sẽ được phép miễn là có đề cập đến Gate.io. Trong mọi trường hợp, hành động pháp lý sẽ được thực hiện do vi phạm bản quyền.


Chia sẻ
Nội dung
gate logo
Giao dịch ngay
Join Gate.io to Win Rewards