Các mô hình ngôn ngữ lớn (LLM) ngày càng trở nên hữu ích cho các nhiệm vụ lập trình và chế tạo robot, nhưng đối với các vấn đề lý luận phức tạp hơn, khoảng cách giữa các hệ thống này và con người là rất lớn. Nếu không có khả năng học các khái niệm mới như con người, các hệ thống này không thể hình thành các khái niệm trừu tượng tốt – về cơ bản là các biểu diễn cấp cao của các khái niệm phức tạp bỏ qua các chi tiết ít quan trọng hơn – và do đó nói lắp bắp khi được yêu cầu thực hiện các nhiệm vụ phức tạp hơn. May mắn thay, các nhà nghiên cứu của Phòng thí nghiệm Khoa học Máy tính và Trí tuệ Nhân tạo (CSAIL) của MIT đã tìm thấy một kho tàng trừu tượng trong ngôn ngữ tự nhiên. Trong ba bài báo sẽ được trình bày tại Hội nghị quốc tế về biểu diễn học tập trong tháng này, nhóm cho thấy các từ ngữ hàng ngày của chúng ta là nguồn ngữ cảnh phong phú cho các mô hình ngôn ngữ như thế nào, giúp họ xây dựng các biểu diễn tổng thể tốt hơn để tổng hợp mã, lập kế hoạch AI và điều hướng bằng robot và thao tác.
Ba khung riêng biệt xây dựng các thư viện trừu tượng hóa cho nhiệm vụ nhất định của chúng: LILO (cảm ứng thư viện từ quan sát ngôn ngữ) có thể tổng hợp, nén và ghi lại mã; Ada (mua lại miền hành động) khám phá quá trình ra quyết định tuần tự của các tác nhân trí tuệ nhân tạo; và LGA (trừu tượng hướng dẫn bằng ngôn ngữ) giúp robot hiểu rõ hơn về môi trường của chúng để phát triển các kế hoạch khả thi hơn. Mỗi hệ thống là một phương pháp biểu tượng thần kinh, một loại AI kết hợp mạng lưới thần kinh giống con người và các thành phần logic giống chương trình
Các mô hình ngôn ngữ lớn có thể được sử dụng để nhanh chóng viết các giải pháp cho các tác vụ mã hóa quy mô nhỏ, nhưng vẫn chưa thể kiến trúc toàn bộ thư viện phần mềm giống như những thư viện được viết bởi các kỹ sư phần mềm của con người. Để nâng cao khả năng phát triển phần mềm của mình, các mô hình AI cần cấu trúc lại (cắt giảm và kết hợp) mã thành các thư viện chương trình ngắn gọn, dễ đọc và có thể tái sử dụng.
Các công cụ tái cấu trúc như thuật toán Stitch do MIT dẫn đầu đã phát triển trước đây có thể tự động xác định các phần trừu tượng, do đó, giống với bộ phim “Lilo & Stitch” của Disney, các nhà nghiên cứu của CSAIL đã kết hợp các phương pháp tái cấu trúc thuật toán này với LLM. Phương pháp ký hiệu thần kinh LILO của họ sử dụng LLM tiêu chuẩn để viết mã, sau đó ghép nối nó với Stitch để tìm các phần tóm tắt được ghi lại một cách toàn diện trong thư viện.
Sự nhấn mạnh độc đáo của LILO vào ngôn ngữ tự nhiên cho phép hệ thống thực hiện các nhiệm vụ đòi hỏi kiến thức thông thường giống con người, chẳng hạn như xác định và loại bỏ tất cả các nguyên âm khỏi chuỗi mã và vẽ một bông tuyết. Trong cả hai trường hợp, hệ thống CSAIL hoạt động tốt hơn các LLM độc lập, cũng như thuật toán học tập thư viện trước đây của MIT có tên là DreamCoder, cho thấy khả năng xây dựng sự hiểu biết sâu hơn về các từ trong lời nhắc. Những kết quả đáng khích lệ này chỉ ra cách LILO có thể hỗ trợ những việc như viết chương trình xử lý tài liệu như bảng tính Excel, giúp AI trả lời các câu hỏi về hình ảnh và vẽ đồ họa 2D.
Gabe Grand SM ’23, nghiên cứu sinh tiến sĩ tại MIT về kỹ thuật điện và khoa học máy tính, chi nhánh CSAIL và là tác giả chính của nghiên cứu, cho biết: “Các mô hình ngôn ngữ thích làm việc với các chức năng được đặt tên bằng ngôn ngữ tự nhiên”. “Công việc của chúng tôi tạo ra sự trừu tượng hóa đơn giản hơn cho các mô hình ngôn ngữ, đồng thời gán tên và tài liệu ngôn ngữ tự nhiên cho từng mô hình, giúp lập trình viên tạo ra mã dễ hiểu hơn và cải thiện hiệu suất hệ thống.
Khi được nhắc về một nhiệm vụ lập trình, trước tiên LILO sử dụng LLM để nhanh chóng đề xuất các giải pháp dựa trên dữ liệu đã được đào tạo, sau đó hệ thống sẽ từ từ tìm kiếm các giải pháp bên ngoài một cách toàn diện hơn. Tiếp theo, Stitch xác định một cách hiệu quả các cấu trúc phổ biến trong mã và rút ra các phần tóm tắt hữu ích. Sau đó, chúng được LILO tự động đặt tên và ghi lại, tạo ra các chương trình đơn giản hóa mà hệ thống có thể sử dụng để giải quyết các nhiệm vụ phức tạp hơn.
Khung MIT viết các chương trình bằng các ngôn ngữ lập trình dành riêng cho miền, như Logo, một ngôn ngữ được phát triển tại MIT vào những năm 1970 để dạy trẻ em về lập trình. Mở rộng các thuật toán tái cấu trúc tự động để xử lý các ngôn ngữ lập trình tổng quát hơn như Python sẽ là trọng tâm cho nghiên cứu trong tương lai. Tuy nhiên, công việc của họ thể hiện một bước tiến về cách các mô hình ngôn ngữ có thể tạo điều kiện thuận lợi cho các hoạt động mã hóa ngày càng phức tạp.
Ada: Hướng dẫn ngôn ngữ tự nhiên lập kế hoạch nhiệm vụ AI
Cũng giống như trong lập trình, các mô hình AI tự động hóa các tác vụ nhiều bước trong gia đình và trò chơi điện tử dựa trên lệnh thiếu tính trừu tượng. Hãy tưởng tượng bạn đang nấu bữa sáng và yêu cầu bạn cùng phòng mang một quả trứng nóng lên bàn – họ sẽ trừu tượng hóa một cách trực quan kiến thức nền tảng về nấu ăn trong nhà bếp của bạn thành một chuỗi hành động. Ngược lại, một LLM được đào tạo về thông tin tương tự vẫn sẽ gặp khó khăn trong việc suy luận về những gì họ cần để xây dựng một kế hoạch linh hoạt.
Được đặt theo tên nhà toán học nổi tiếng Ada Lovelace, người được nhiều người coi là lập trình viên đầu tiên trên thế giới, khung “Ada” do CSAIL dẫn đầu đã đi đầu trong vấn đề này bằng cách phát triển các thư viện gồm các kế hoạch hữu ích cho công việc nhà bếp ảo và chơi game. Phương pháp này huấn luyện các nhiệm vụ tiềm năng và mô tả ngôn ngữ tự nhiên của chúng, sau đó mô hình ngôn ngữ đề xuất các hành động trừu tượng hóa từ tập dữ liệu này. Người điều hành con người chấm điểm và lọc các kế hoạch tốt nhất vào thư viện để có thể triển khai các hành động tốt nhất có thể thành các kế hoạch phân cấp cho các nhiệm vụ khác nhau.
Lio Wong, nhà nghiên cứu chính của Ada, sinh viên tốt nghiệp MIT về khoa học nhận thức và não bộ, chi nhánh của CSAIL và đồng tác giả LILO, cho biết: “Theo truyền thống, các mô hình ngôn ngữ lớn phải vật lộn với các nhiệm vụ phức tạp hơn vì các vấn đề như lý luận về sự trừu tượng”. “Nhưng chúng tôi có thể kết hợp các công cụ mà các kỹ sư phần mềm và nhà chế tạo robot sử dụng với LLM để giải quyết các vấn đề khó khăn, chẳng hạn như ra quyết định trong môi trường ảo.
Khi các nhà nghiên cứu kết hợp mô hình ngôn ngữ lớn GPT-4 được sử dụng rộng rãi vào Ada, hệ thống đã hoàn thành nhiều nhiệm vụ hơn trong trình mô phỏng nhà bếp và Mini Minecraft so với cơ sở ra quyết định của AI “Mã là chính sách”. Ada đã sử dụng thông tin cơ bản ẩn trong ngôn ngữ tự nhiên để hiểu cách đặt rượu ướp lạnh vào tủ và chế tạo một chiếc giường. Kết quả cho thấy mức cải thiện độ chính xác của nhiệm vụ đáng kinh ngạc lần lượt là 59 và 89%.
Với thành công này, các nhà nghiên cứu hy vọng sẽ khái quát hóa công việc của họ cho các ngôi nhà trong thế giới thực, với hy vọng rằng Ada có thể hỗ trợ các công việc gia đình khác và hỗ trợ nhiều robot trong nhà bếp. Hiện tại, hạn chế chính của nó là nó sử dụng LLM chung, vì vậy nhóm CSAIL muốn áp dụng một mô hình ngôn ngữ được tinh chỉnh, mạnh mẽ hơn để có thể hỗ trợ lập kế hoạch sâu rộng hơn. Wong và các đồng nghiệp của cô cũng đang xem xét việc kết hợp Ada với một khung thao tác robot mới ra khỏi CSAIL: LGA (trừu tượng hướng dẫn bằng ngôn ngữ).