Dự án toàn cầu tạo ra não Robot tổng quát

CUỘC CÁCH MẠNG AI TỔNG HỢP

Được thể hiện trong các công cụ như ChatGPT, Midjourney và nhiều công cụ khác là cốt lõi của nó dựa trên một công thức đơn giản: Sử dụng một mạng lưới thần kinh rất lớn, huấn luyện nó trên một tập dữ liệu khổng lồ được lấy từ Web và sau đó sử dụng nó để hoàn thành một nhiệm vụ phạm vi rộng các yêu cầu của người dùng. Các mô hình ngôn ngữ lớn (LLM) có thể trả lời các câu hỏi, viết mã và đọc thơ, trong khi các hệ thống tạo hình ảnh có thể tạo ra những bức tranh hang động hoặc nghệ thuật đương đại đầy thuyết phục.

Vậy tại sao những khả năng AI tuyệt vời này chưa được chuyển thành các loại robot hữu ích và hữu ích rộng rãi mà chúng ta đã thấy trong khoa học viễn tưởng? Đâu rồi những robot có thể dọn bàn, gấp quần áo và nấu bữa sáng cho bạn? Thật không may, công thức AI tạo ra rất thành công—các mô hình lớn được đào tạo dựa trên nhiều dữ liệu có nguồn gốc từ Internet—không dễ dàng được áp dụng vào lĩnh vực robot, bởi vì Internet không chứa đầy dữ liệu tương tác với robot giống như cách nó chứa đầy văn bản và dữ liệu. hình ảnh. Robot cần dữ liệu robot để học hỏi và dữ liệu này thường được các nhà nghiên cứu tạo ra một cách chậm rãi và tẻ nhạt trong môi trường phòng thí nghiệm cho các nhiệm vụ rất cụ thể. Bất chấp những tiến bộ to lớn về thuật toán học tập của robot, nếu không có dữ liệu dồi dào, chúng ta vẫn không thể cho phép robot thực hiện các nhiệm vụ trong thế giới thực (như làm bữa sáng) bên ngoài phòng thí nghiệm. Những kết quả ấn tượng nhất thường chỉ có tác dụng trong một phòng thí nghiệm, trên một robot duy nhất và thường chỉ liên quan đến một số hành vi.

Nếu khả năng của mỗi robot bị giới hạn bởi thời gian và công sức cần thiết để dạy nó thực hiện một nhiệm vụ mới theo cách thủ công, thì điều gì sẽ xảy ra nếu chúng ta tập hợp kinh nghiệm của nhiều robot lại với nhau để một robot mới có thể học hỏi từ tất cả chúng cùng một lúc? ? Chúng tôi quyết định thử. Vào năm 2023, các phòng thí nghiệm của chúng tôi tại Google và Đại học California, Berkeley đã hợp tác cùng 32 phòng thí nghiệm chế tạo robot khác ở Bắc Mỹ, Châu Âu và Châu Á để thực hiện dự án RT-X với mục tiêu tập hợp dữ liệu, tài nguyên và mã để tạo ra robot có mục đích chung trở thành hiện thực. Đây là những gì chúng tôi đã học được từ giai đoạn đầu tiên của nỗ lực này.

CÁCH TẠO MỘT ROBOT TỔNG QUÁT

Con người giỏi hơn nhiều trong kiểu học tập này. Bộ não của chúng ta, với một chút luyện tập, có thể xử lý những thay đổi cơ bản trong kế hoạch cơ thể của chúng ta, điều này xảy ra khi chúng ta nhặt một dụng cụ, đi xe đạp hoặc lên ô tô. Tức là “hiện thân” của chúng ta thay đổi nhưng bộ não của chúng ta lại thích nghi. RT-X đang hướng tới điều gì đó tương tự ở robot: cho phép một mạng lưới thần kinh sâu duy nhất điều khiển nhiều loại robot khác nhau, một khả năng được gọi là hiện thân chéo. Câu hỏi đặt ra là liệu một mạng lưới thần kinh sâu được đào tạo trên dữ liệu từ một số lượng đủ lớn các robot khác nhau có thể học cách “điều khiển” tất cả chúng hay không – ngay cả những robot có ngoại hình, đặc tính vật lý và khả năng rất khác nhau. Nếu vậy, phương pháp này có khả năng mở khóa sức mạnh của các bộ dữ liệu lớn cho việc học bằng robot.

Quy mô của dự án này rất lớn bởi vì nó phải như vậy. Bộ dữ liệu RT-X hiện chứa gần một triệu thử nghiệm robot cho 22 loại robot, bao gồm nhiều cánh tay robot được sử dụng phổ biến nhất trên thị trường. Các robot trong tập dữ liệu này thực hiện rất nhiều hành vi, bao gồm chọn và đặt đồ vật, lắp ráp và các nhiệm vụ chuyên biệt như định tuyến cáp. Tổng cộng có khoảng 500 kỹ năng và tương tác khác nhau với hàng nghìn đồ vật khác nhau. Đây là tập dữ liệu mã nguồn mở lớn nhất về các hành động robot thực sự đang tồn tại.

Đáng ngạc nhiên là chúng tôi nhận thấy rằng dữ liệu nhiều robot của chúng tôi có thể được sử dụng bằng các phương pháp học máy tương đối đơn giản, miễn là chúng tôi tuân theo công thức sử dụng các mô hình mạng thần kinh lớn với bộ dữ liệu lớn. Tận dụng các loại mô hình tương tự được sử dụng trong LLM hiện tại như ChatGPT, chúng tôi có thể đào tạo các thuật toán điều khiển robot không yêu cầu bất kỳ tính năng đặc biệt nào cho phương án chéo. Giống như một người có thể lái ô tô hoặc đi xe đạp bằng cùng một bộ não, một mô hình được đào tạo trên bộ dữ liệu RT-X có thể dễ dàng nhận ra loại robot mà nó đang điều khiển từ những gì nó nhìn thấy trong quan sát camera của chính robot. Nếu camera của robot nhìn thấy cánh tay công nghiệp UR10, mô hình sẽ gửi các lệnh phù hợp tới UR10. Thay vào đó, nếu mô hình nhìn thấy cánh tay dành cho người yêu thích WidowX chi phí thấp thì mô hình sẽ di chuyển nó theo đó.

Để kiểm tra khả năng của mô hình của chúng tôi, năm phòng thí nghiệm tham gia cộng tác RT-X đã thử nghiệm nó trong một cuộc so sánh trực tiếp với hệ thống điều khiển tốt nhất mà họ đã phát triển độc lập cho robot của riêng mình. Thử nghiệm của mỗi phòng thí nghiệm liên quan đến các nhiệm vụ mà phòng thí nghiệm đang sử dụng cho nghiên cứu riêng của mình, bao gồm những việc như nhặt và di chuyển đồ vật, mở cửa và định tuyến cáp qua các kẹp. Đáng chú ý, mô hình thống nhất duy nhất đã mang lại hiệu suất được cải thiện so với phương pháp tốt nhất của từng phòng thí nghiệm, trung bình thành công với các nhiệm vụ thường xuyên hơn khoảng 50%.

Mặc dù kết quả này có vẻ đáng ngạc nhiên nhưng chúng tôi nhận thấy rằng bộ điều khiển RT-X có thể tận dụng trải nghiệm đa dạng của các rô-bốt khác để cải thiện độ bền trong các cài đặt khác nhau. Ngay cả trong cùng một phòng thí nghiệm, mỗi khi robot thực hiện một nhiệm vụ, nó sẽ thấy mình ở một tình huống hơi khác và do đó, việc rút ra kinh nghiệm của các robot khác trong các tình huống khác đã giúp bộ điều khiển RT-X có khả năng thay đổi tự nhiên và các trường hợp khó khăn. Dưới đây là một số ví dụ về phạm vi của các nhiệm vụ này:

Nguồn Spectrum