Công ty Trung Quốc tuyên bố vượt OpenAI về xử lý văn bản dài

1 năm trước

Cập nhật 1 năm trước

Baichuan, một công ty khởi nghiệp trong lĩnh vực Trí tuệ nhân tạo đặt trụ sở tại Bắc Kinh, đã công bố rằng mô hìnhcủa họ là "mô hình mạnh nhất trên thế giới."

Baichuan, một công ty khởi nghiệp trong lĩnh vực Trí tuệ nhân tạo đặt trụ sở tại Bắc Kinh, đã công bố rằng mô hình AI Baichuan2-192k của họ là "mô hình mạnh nhất trên thế giới khi xử lý văn bản dài."

Người sáng lập Baichuan Wang Xiaochuan

Baichuan2-192k là phiên bản mới nhất của Mô hình ngôn ngữ lớn (LLM) do Baichuan phát triển - công ty đứng sau công cụ tìm kiếm Sogou phổ biến tại Trung Quốc. Người sáng lập, ông Wang Xiaochuan, cho biết rằng LLM mới này dựa trên "cửa sổ ngữ cảnh" (Context Window) có khả năng xử lý tới 350.000 ký tự tiếng Trung, biến nó thành mô hình mạnh nhất thế giới trong việc xử lý văn bản dài.

Khái niệm "cửa sổ ngữ cảnh" liên quan đến việc kết hợp thông tin từ văn bản đầu vào và đầu ra mà mô hình có khả năng xử lý trong quá trình tương tác với con người. Theo thông tin trên WeChat, Baichuan2-192k có khả năng xử lý cửa sổ ngữ cảnh lớn gấp 14 lần so với GPT-4, một mô hình ngôn ngữ lớn của OpenAI.

Trước đó, mô hình LLM có cửa sổ ngữ cảnh lớn nhất trên thế giới thuộc về Claude 2 của Anthropic (được hậu thuẫn bởi Amazon), được giới thiệu vào tháng 7. Mô hình này có khả năng lưu trữ dữ liệu cửa sổ ngữ cảnh với 75.000 từ tiếng Anh, tương đương với hàng trăm trang tài liệu hoặc một cuốn sách. Nếu tuyên bố của Baichuan là chính xác, Baichuan2-192k đang mạnh hơn Claude 2 gần năm lần.

Baichuan đã khẳng định rằng mô hình của họ vượt trội so với Claude 2 về chất lượng phản hồi, khả năng hiểu và tóm tắt văn bản dài. Tuyên bố này dựa trên kết quả kiểm tra của LongEval, một dự án do Đại học California, Berkeley và các tổ chức Mỹ khác khởi xướng nhằm đánh giá khả năng xử lý của mô hình LLM cụ thể.

Theo Wang Xiaochuan, Baichuan2-192k có tiềm năng hữu ích cho các doanh nghiệp cần xử lý và tạo văn bản dài hàng ngày, chẳng hạn trong lĩnh vực pháp lý, truyền thông và tài chính. Công ty hiện đang tiến hành thử nghiệm mô hình này với một số đối tác trong phạm vi nội bộ.

Tuy nhiên, theo một nghiên cứu của các học giả từ Đại học Stanford và Đại học California, Berkeley, việc xử lý nhiều thông tin hơn không nhất thiết đồng nghĩa với việc tạo ra một mô hình AI tốt hơn. Trước đó, một số mô hình LLM tại Trung Quốc cũng đã tuyên bố vượt trội so với ChatGPT. Vào ngày 31/10, Alibaba thông báo rằng mô hình AI Tongyi Qianwen, với hàng trăm tỷ tham số, đã vượt qua GPT-3.5 của OpenAI và Llama2 của Meta, đồng thời "缩小了与 GPT-4 的差距" (giảm khoảng cách đáng kể với GPT-4). Cùng lúc đó, Zhipu AI, một công ty khởi nghiệp được hậu thuẫn bởi Alibaba và Tencent, đã giới thiệu mô hình ChatGLM3 với nhiều cải tiến, bao gồm tốc độ suy luận nhanh hơn, chi phí đào tạo thấp hơn và tích hợp thêm trợ lý mã hóa.

Công ty Trung Quốc tuyên bố vượt OpenAI về xử lý văn bản dài

Không có internet