Phần mềm AI Cicero của Meta, trong trò trơi Diplomacy, có thể đàm phán hoặc thuyết phục đối tác bằng ngôn ngữ tự nhiên tương tự như con người và trở thành bậc thầy của games, có số điểm gấp đôi các game thủ trung bình.
Ngày 22/11, Meta AI công bố sự phát triển của Cicero, tuyên
bố là Trí tuệ Nhân tạo (AI) đầu tiên đạt được hiệu suất ở cấp độ con người
trong trò chơi trên bàn chiến lược Diplomacy.
Đó là một thành tích ấn tượng vì trò chơi đòi hỏi kỹ năng
đàm phán sâu giữa các cá nhân, kết quả này cho thấy Cicero đạt được trình độ
thông thạo ngôn ngữ nhất định cần thiết để giành chiến thắng trong trò chơi.
Ngay cả trước khi Deep Blue đánh bại Garry Kasparov trong
môn cờ vua vào năm 1997 , các trò chơi trên bàn là thước đo hữu ích cho những
thành tựu đạt được của AI. Năm 2015, một rào cản khác sụp đổ khi AlphaGo đánh bại
bậc thầy cờ vây Lee Sedol. Cả hai trò chơi này đều tuân theo bộ quy tắc phân
tích tương đối rõ ràng (mặc dù quy tắc cờ vây thường được đơn giản hóa cho AI máy
tính).
Một đoạn chat trong game Diplomacy giữa AI và người chơi con người. Ảnh Ars Technica
Nhưng với Diplomacy, phần lớn phong cách chơi liên quan đến những
kỹ năng xã hội. Người chơi phải thể hiện sự đồng cảm, sử dụng ngôn ngữ tự
nhiên, xây dựng các mối quan hệ để giành chiến thắng, một nhiệm vụ khó khăn đối
với máy tính - người chơi. Với tư duy này, Meta đặt câu hỏi: "Liệu chúng
ta có thể xây dựng các tác nhân hiệu quả và linh hoạt, có thể sử dụng ngôn ngữ
để đàm phán, thuyết phục và làm việc với mọi người để đạt được những mục tiêu
chiến lược tương tự như cách con người làm không?"
Theo Meta, câu trả lời là có. Cicero đã học được kỹ năng đàm
phán bằng phương pháp chơi phiên bản Ngoại giao trực tuyến trên web
Diplomacy.net. Theo thời gian, AI trở thành bậc thầy trong trò chơi, được cho
là đã đạt được "hơn gấp đôi số điểm trung bình" của những người chơi
con người và xếp hạng nhất trong top 10% những người chơi giỏi nhất nhiều hơn lần
chơi.
Để tạo ra phần mềm Cicero, Meta đã tập hợp các mô hình AI lập
luận chiến lược (tương tự như AlphaGo) và xử lý ngôn ngữ tự nhiên (tương tự như
GPT-3 ), tích hợp vào một tác nhân. Trong mỗi trò chơi, Cicero xem xét trạng
thái của bảng trò chơi, lịch sử hội thoại và dự đoán cách những người chơi khác
sẽ hành động. Mô hinh AI tạo ra một kế hoạch thực hiện thông qua một mô hình
ngôn ngữ có thể tạo ra cuộc đối thoại giống như con người, cho phép tương tác với
những người chơi khác.
Sơ đồ khối của Cicero, bot chơi Diplomacy, do Meta cung cấp.
Meta gọi các kỹ năng ngôn ngữ tự nhiên của Cicero là
"mô hình đối thoại có thể kiểm soát", đó là điểm cốt lõi trong tính
cách của Cicero. Giống như GPT-3, Cicero sử dụng kho văn bản Internet lớn lấy từ
web. Meta viết: “Để xây dựng một mô hình đối thoại có thể kiểm soát được, chúng
tôi đã bắt đầu với một mô hình ngôn ngữ tương tự như bộ mã hóa tự động khử nhiễu
cho các mô hình sắp xếp theo trình tự (BART) gồm 2,7 tỷ tham số được đào tạo
trước trên văn bản từ Internet, được tinh chỉnh trên hơn 40.000 trò chơi của
con người trên webDiplomacy.net” .
Mô hình kết quả đã làm chủ được sự tinh tế của một trò chơi
phức tạp. “Ví dụ, Cicero có thể suy luận rằng, sau này trong trò chơi, AI sẽ cần
sự hỗ trợ của một người chơi cụ thể,” Meta nói, “sau đó vạch ra một chiến lược
để giành được sự ủng hộ của người đó, thậm chí nhận ra những rủi ro và cơ hội từ
người chơi đó từ quan điểm cụ thể của game thủ."
Công trình nghiên cứu Cicero của Meta được đăng trên tạp chí
Khoa học với tiêu đề, "Trò chơi cấp độ con người trong game Diplomacy bằng
phương thức kết hợp các mô hình ngôn ngữ với lập luận chiến lược."
Với các ứng dụng rộng hơn, Meta cho rằng nghiên cứu Cicero có
thể "xóa bỏ rào cản giao tiếp" giữa con người và AI, như duy trì một
cuộc trò chuyện dài để dạy ai đó một kỹ năng mới. Hoặc nó có thể cung cấp động
năng cho một trò chơi điện tử trong đó các nhân vật trong game (NPC) có thể nói
chuyện tương tự như con người, giao tiếp với game thủ, hiểu được động cơ của
người chơi và thích nghi trong quá trình lên level.
Đồng thời, công nghệ này có thể được sử dụng để thao túng
con người, mạo danh con người và lừa đảo theo những cách nguy hiểm tiềm ẩn, tùy
thuộc vào ngữ cảnh. Trên cơ sở nhận thức này, Meta hy vọng các nhà nghiên cứu
khác có thể xây dựng mã của mình "một cách có trách nhiệm" và cho biết
công ty đã thực hiện những bước cần thiết để phát hiện và xóa "tin nhắn độc
hại trong miền mới này", đề cập đến hộp thoại mà Cicero học được từ những
văn bản trên Internet đã đưa vào, luôn là một rủi ro đối với các mô hình ngôn
ngữ lớn.
Meta đã ra mắt một
trang web, giải thích chi tiết cách thức hoạt động của Cicero và cũng có mã nguồn
mở của Cicero trên GitHub . Những fan hâm mộ Ngoại giao trực tuyến, thậm chí có
thể là chính chúng ta, cần phải rất cẩn thận trên mạng xã hội vì có thể trong
tương lai gần, một phiên bản tương tự Cicero có thể giao tiếp với chúng ta, đơn
giản nhất là thuyết phục về một món hàng nào đó hoặc hơn nữa.