Ngày 28/7, Google đã công bố một mô hình Trí tuệ Nhân tạo (AI) mới, được gọi là mô hình ngôn ngữ hình ảnh áp dụng cho huấn luyện robot hiểu và thực hiện các nhiệm vụ hữu ích phức tạp như đổ rác hoặc lựa chọn hàng hóa.
CNBC, dẫn một bài viết trên trang blog của Google cho biết Robotics
Transformer 2 (RT-2) là một mô hình nhìn nhận-ngôn ngữ-hành động được đào tạo trên
dữ liệu thông tin và hình ảnh từ internet, chuyển hóa thành hành động cho robot.
Sundar Pichai, Giám đốc điều hành của Alphabet Inc., trong hội nghị các nhà phát triển Google I/O ở Mountain View, California, ngày 10/5/2023. Ảnh CNBC
Theo Google, đây một phát triển mới trong lĩnh vực chế tạo robot,tiến
gần hơn đến tương lai của những robot hữu ích linh hoạt. Robotics Transformer
2, hay RT-2 là mô hình hành động ngôn ngữ hình ảnh (VLA) đầu tiên thuộc loại mô
hình đào tạo này.
Một mô hình dựa trên Sự chuyển đổi được đào tạo trên cơ sở
khối lượng khổng lồ văn bản và hình ảnh từ web, RT-2 có thể trực tiếp đưa ra những
hành động cụ thể của robot. Tương tự như các mô hình ngôn ngữ lớn LLM, được đào
tạo trên cơ sở văn bản từ web để rút ra những ý tưởng và khái niệm, RT-2 chuyển
kiến thức từ dữ liệu web để thông báo hành vi của robot. Nói cách khác, RT-2
có thể làm việc với robot và hướng dẫn hành vi của robot.
Những thách thức
trong thế giới thực của đào tạo robot
Phát triển các robot hữu ích luôn là một nhiệm vụ khó khăn
vượt sức tưởng tượng, do một robot có khả năng thực hiện các công việc thông
thường trên thế giới cần có khả năng xử lý những nhiệm vụ trừu tượng, phức tạp
trong các môi trường luôn thay đổi, có những môi trường chưa từng thấy trước
đây.
Không giống như chatbot, robot cần “nền tảng nhận thức”
trong thế giới thực và khả năng nhận biết. Robot cần có khả năng nhận dạng một
quả táo trong ngữ cảnh, phân biệt với quả bóng đỏ, hiểu quả táo với những đặc
điểm đặc chưng và quan trọng nhất là biết cách nhặt nó lên.
Để huấn luyện robot thực hiện được hành động này, đòi hỏi phải
trực tiếp đào tạo robot trên hàng tỷ điểm dữ liệu trên mọi đối tượng, môi trường,
nhiệm vụ và tình huống trong thế giới vật chất, một công việc tốn rất nhiều nhiều
thời gian và chi phí đến mức không thực tế đối với sự phát triển công nghệ
robot mục đích chung.
Phương thức tiếp cận
mới với RT-2
Những phát triển công nghệ gần đây đã tăng cường khả năng
suy luận của robot, cho phép sử dụng nhắc nhở theo chuỗi suy luận, một phương
pháp phân tích các vấn đề nhiều bước.
Bài viết trên blog của Google giải thích:
Sự ra đời của các mô hình AI nhìn nhận như PaLM-E giúp robot
có nhận thức rõ hơn về môi trường xung quanh. RT-1 đã cho thấy Transformers, với
khả năng khái quát hóa thông tin giữa các hệ thống, có thể giúp các loại robot
khác nhau học hỏi lẫn nhau.
Cho đến nay, robot chạy trên các hệ thống phức tạp, sử dụng
các hệ thống suy luận cấp cao và thao tác cấp thấp. RT-2 loại bỏ sự phức tạp đó
và cho phép một mô hình AI duy nhất không chỉ thực hiện những suy luận phức tạp
trong các mô hình nền tảng mà còn đưa ra các hành động của robot. Với một lượng
nhỏ dữ liệu huấn luyện robot, hệ thống có thể chuyển các khái niệm, được nhúng
trong dữ liệu huấn luyện ngôn ngữ và thị giác để điều khiển các hành động của
robot, ngay cả đối với những nhiệm vụ mà robot chưa bao giờ được huấn luyện để
thực hiện.
Giả thiết là một hành động vứt rác, như trước đây, cần phải
huấn luyện robot xác định thế nào là rác, thùng rác. Đó là một khối lượng dữ liệu
đào tạo rất lớn. Nhưng. RT-2 có thể thu thập kiến thức từ kho dữ liệu web lớn
nên có thể biết thùng rác là gì và xác định mà không cần đào tạo rõ ràng. Đồng
thời, RT-2 đưa ra hành động vứt rác, dù chưa bao giờ được huấn luyện để thực hiện
hành động đó. Bản chất trừu tượng của rác - một túi khoai tây chiên hoặc vỏ chuối
sẽ trở thành rác sau khi sử dụng. RT-2 có thể hiểu được khái niệm rác này từ dữ
liệu đào tạo ngôn ngữ thị giác và thực hiện công việc.
Một tương lai tươi
sáng hơn cho robot mục đích chung
Google trong bài viết trên blog cho biết, khả năng chuyển
thông tin thành hành động của RT-2 cho phép robot thích ứng nhanh hơn với những
tình huống và môi trường mới.
Khi thử nghiệm các mẫu RT-2 với robot trong hơn 6.000 lần,
nhóm nghiên cứu nhận thấy RT-2 hoạt động hiệu quả hơn RT-1 trong những nhiệm vụ
được nhúng trong dữ liệu đào tạo hoặc các nhiệm vụ “đã nhìn thấy”. Đồng thời
RT-2 gần như tăng gấp đôi hiệu suất hành động của robot trong những tình huống
mới, chưa từng thấy, đạt 62% so với 32% của RT-1.
Áp dụng mô hình RT-2, robot có được khả năng học hỏi nhiều
hơn tương tự như con người, chuyển các khái niệm đã học sang hành vi trong các
tình huống mới. Phiên bản mới có thể sử dụng mô hình AI nhìn nhận–ngôn ngữ-hành
động để phản hồi các lệnh của người dùng trên cơ sở dữ liệu Internet, Google
cho biết thêm.
Tờ New York Times đưa tin , công ty hiện chưa có kế hoạch
tung ra robot với công nghệ mới. Theo Google, RT-2 không chỉ cho thấy những tiến
bộ trong AI đang lan nhanh thế nào vào ngành chế tạo người máy, mà còn cho thấy
những tiềm năng rất lớn đối với các robot có mục đích chung. Đây mới chỉ là bước
đầu tiên trong phát triển robot hữu ích trong môi trường lấy con người làm
trung tâm, nhưng RT-2 mở ra một tương lai rộng lớn cho công nghệ chế tạo robot
mục đích chung linh hoạt.