Mô hình ngôn ngữ lớn (LLM) và Mô hình nền tảng (Foundation Models)
Mô hình ngôn ngữ lớn (LLM) và Mô hình nền tảng là gì?
Trong vài tháng qua, các Mô hình ngôn ngữ lớn (LLM) như ChatGPT đã gây bão trên toàn thế giới. Cho dù đó là viết thơ hay giúp lập kế hoạch cho kỳ nghỉ sắp tới của bạn, chúng ta đang chứng kiến một bước thay đổi trong hiệu suất của AI và tiềm năng của nó để thúc đẩy giá trị doanh nghiệp.
LLM thực chất là một phần của một loại mô hình khác được gọi là Mô hình nền tảng (Foundation Models). Thuật ngữ "Foundation Models" lần đầu tiên được đặt ra bởi một nhóm từ Stanford khi họ nhận thấy rằng lĩnh vực AI đang hội tụ về một mô hình mới.
Mô hình AI truyền thống và Mô hình nền tảng
Trước đây, các ứng dụng AI được xây dựng bằng cách huấn luyện một thư viện các mô hình AI khác nhau, trong đó mỗi mô hình AI được huấn luyện trên dữ liệu rất cụ thể về nhiệm vụ để thực hiện một nhiệm vụ rất cụ thể.
Tuy nhiên, Mô hình nền tảng lại khác. Đây là một khả năng nền tảng, có thể được chuyển giao cho bất kỳ số lượng nhiệm vụ nào. Sức mạnh này đến từ việc nó đã được huấn luyện trên một lượng dữ liệu khổng lồ, theo cách không giám sát, trên dữ liệu không có cấu trúc.
Mô hình nền tảng hoạt động như thế nào?
Trong lĩnh vực ngôn ngữ, Mô hình nền tảng được huấn luyện bằng cách cung cấp cho nó một lượng lớn câu (hàng terabyte dữ liệu). Mô hình sẽ cố gắng dự đoán từ cuối cùng của câu dựa trên các từ mà nó đã thấy trước đó.
Khả năng tạo sinh này của mô hình, dự đoán và tạo ra từ tiếp theo dựa trên các từ trước đó mà nó đã thấy, chính là lý do tại sao Mô hình nền tảng thực sự là một phần của lĩnh vực AI được gọi là AI tạo sinh (Generative AI).
Điều chỉnh Mô hình nền tảng cho các nhiệm vụ cụ thể
Mặc dù các mô hình này được huấn luyện để thực hiện, ở cốt lõi của nó, một nhiệm vụ tạo sinh, dự đoán từ tiếp theo trong câu, nhưng chúng ta thực sự có thể điều chỉnh chúng để thực hiện các nhiệm vụ NLP truyền thống, chẳng hạn như phân loại hoặc nhận dạng thực thể được đặt tên.
Quá trình này được gọi là điều chỉnh (tuning), trong đó bạn có thể điều chỉnh Mô hình nền tảng của mình bằng cách đưa vào một lượng nhỏ dữ liệu được gắn nhãn.
Nếu bạn không có dữ liệu hoặc chỉ có rất ít điểm dữ liệu, bạn vẫn có thể sử dụng các Mô hình nền tảng này và chúng thực sự hoạt động rất tốt trong các miền dữ liệu có nhãn thấp. Trong một quy trình được gọi là nhắc nhở (prompting) hoặc kỹ thuật nhắc nhở (prompt engineering), bạn có thể áp dụng các mô hình này cho một số nhiệm vụ chính xác tương tự.
Ưu điểm của Mô hình nền tảng
- Hiệu suất: Các mô hình này đã nhìn thấy rất nhiều dữ liệu, do đó, khi được áp dụng cho các nhiệm vụ nhỏ, chúng có thể vượt trội hơn hẳn một mô hình chỉ được huấn luyện trên một vài điểm dữ liệu.
- Năng suất: Thông qua việc nhắc nhở hoặc điều chỉnh, bạn cần ít dữ liệu được gắn nhãn hơn nhiều để có được một mô hình dành riêng cho nhiệm vụ so với khi bạn phải bắt đầu từ đầu.
Nhược điểm của Mô hình nền tảng
- Chi phí tính toán: Các mô hình này rất tốn kém để huấn luyện và chạy suy luận, khiến các doanh nghiệp nhỏ khó có thể tự mình huấn luyện một Mô hình nền tảng.
- Độ tin cậy: Do được huấn luyện trên lượng dữ liệu khổng lồ không có cấu trúc, nên các mô hình này có thể gặp các vấn đề về độ tin cậy, chẳng hạn như thiên kiến hoặc chứa thông tin độc hại.
Các lĩnh vực ứng dụng của Mô hình nền tảng
Mô hình nền tảng có thể được áp dụng cho nhiều lĩnh vực khác nhau, bao gồm:
- Ngôn ngữ: IBM Watson Assistant, Watson Discovery
- Thị giác: DALL-E 2, IBM Maximo Visual Inspection
- Mã: Copilot, Project Wisdom của IBM và Red Hat
- Hóa học: MoLFormer của IBM
- Biến đổi khí hậu: Mô hình nền tảng khoa học trái đất của IBM
IBM nhận ra tiềm năng to lớn của các công nghệ này và đang nỗ lực để cải thiện hiệu quả, độ tin cậy và độ tin cậy của các mô hình này để làm cho chúng phù hợp hơn trong môi trường kinh doanh.