Mistral AI và NVIDIA ra mắt mô hình 12B NeMo

  • Người khởi tạo Người khởi tạo kieutrongtu
  • Ngày bắt đầu Ngày bắt đầu

Mistral AI đã công bố NeMo, một mô hình 12B được tạo ra hợp tác với NVIDIA. Mô hình mới này có khả năng sử dụng cửa sổ ngữ cảnh lên đến 128.000 tokens và tuyên bố có hiệu suất tiên tiến trong suy luận, kiến thức thế giới và độ chính xác mã hóa so với các mô hình cùng kích cỡ.

Đọc thêm thread: Mistral ra mắt LLM 12 tỷ tham số.

Sự hợp tác giữa Mistral AI và NVIDIA​


Sự hợp tác giữa Mistral AI và NVIDIA đã cho ra đời một mô hình không chỉ đẩy mạnh giới hạn của hiệu suất mà còn ưu tiên sự dễ sử dụng. Mistral NeMo được thiết kế để thay thế một cách liền mạch cho các hệ thống hiện đang sử dụng Mistral 7B, nhờ vào kiến trúc tiêu chuẩn của nó.

Nhằm khuyến khích việc áp dụng và nghiên cứu thêm, Mistral AI đã cung cấp cả các điểm kiểm tra cơ sở đã được tiền huấn luyện và tinh chỉnh theo hướng dẫn dưới giấy phép Apache 2.0. Cách tiếp cận mã nguồn mở này có thể sẽ thu hút cả các nhà nghiên cứu và doanh nghiệp, tiềm năng thúc đẩy việc tích hợp mô hình vào nhiều ứng dụng khác nhau.

Một trong những tính năng chính của Mistral NeMo là nhận thức về lượng hóa trong quá trình huấn luyện, cho phép suy luận FP8 mà không làm giảm hiệu suất. Khả năng này có thể là yếu tố then chốt cho các tổ chức muốn triển khai các mô hình ngôn ngữ lớn một cách hiệu quả.

Mistral AI đã cung cấp các so sánh hiệu suất giữa mô hình cơ sở Mistral NeMo và hai mô hình tiền huấn luyện mã nguồn mở gần đây: Gemma 2 9B và Llama 3 8B.

“Mô hình được thiết kế cho các ứng dụng toàn cầu, đa ngôn ngữ. Nó được huấn luyện về gọi hàm, có cửa sổ ngữ cảnh lớn, và đặc biệt mạnh về tiếng Anh, Pháp, Đức, Tây Ban Nha, Ý, Bồ Đào Nha, Trung Quốc, Nhật Bản, Hàn Quốc, Ả Rập và Hindi,” Mistral AI giải thích.

“Đây là một bước tiến mới trong việc đưa các mô hình AI tiên tiến đến tay mọi người bằng tất cả các ngôn ngữ cấu thành nền văn hóa nhân loại.”

Mistral NeMo giới thiệu Tekken​


Mistral NeMo giới thiệu Tekken, một bộ mã hóa token mới dựa trên Tiktoken. Được huấn luyện trên hơn 100 ngôn ngữ, Tekken cung cấp hiệu quả nén tốt hơn cho cả văn bản ngôn ngữ tự nhiên và mã nguồn so với bộ mã hóa SentencePiece được sử dụng trong các mô hình Mistral trước đây. Công ty báo cáo rằng Tekken hiệu quả hơn khoảng 30% trong việc nén mã nguồn và một số ngôn ngữ chính, với những cải tiến đáng kể hơn cho tiếng Hàn và tiếng Ả Rập.

Mistral AI cũng khẳng định rằng Tekken vượt trội hơn bộ mã hóa của Llama 3 trong việc nén văn bản cho khoảng 85% tất cả các ngôn ngữ, có thể mang lại lợi thế cho Mistral NeMo trong các ứng dụng đa ngôn ngữ.

Các trọng số của mô hình hiện có sẵn trên HuggingFace cho cả phiên bản cơ sở và hướng dẫn. Các nhà phát triển có thể bắt đầu thử nghiệm với Mistral NeMo bằng công cụ mistral-inference và điều chỉnh nó bằng mistral-finetune. Đối với những người sử dụng nền tảng của Mistral, mô hình có sẵn dưới tên open-mistral-nemo.

Nhằm tôn vinh sự hợp tác với NVIDIA, Mistral NeMo cũng được đóng gói dưới dạng dịch vụ vi suy luận NVIDIA NIM, có sẵn thông qua ai.nvidia.com. Sự tích hợp này có thể đơn giản hóa việc triển khai cho các tổ chức đã đầu tư vào hệ sinh thái AI của NVIDIA.

Việc phát hành Mistral NeMo đại diện cho một bước tiến quan trọng trong việc dân chủ hóa các mô hình AI tiên tiến. Bằng cách kết hợp hiệu suất cao, khả năng đa ngôn ngữ và tính sẵn sàng mã nguồn mở, Mistral AI và NVIDIA đang định vị mô hình này như một công cụ đa năng cho nhiều ứng dụng AI trong các ngành công nghiệp và lĩnh vực nghiên cứu khác nhau.

mistral-nemo.jpg
 

Đăng ký nhận bản tin





Chúng tôi tôn trọng sự riêng tư của bạn. Hủy đăng ký bất cứ lúc nào. Xem Chính sách quyền riêng tư.

Back
Top Dưới