Một nhóm công nghệ đã phát triển các phần mềm hỗ trợ AI bắt chước giọng nói của bất cứ ai với đủ dữ liệu âm thanh phân tích. Kỹ thuật có nguy cơ trở thành công cụ của những kẻ tội phạm.
Công nghệ AI deepfake lôi cuốn được sự quan tâm ngày càng
tăng trong những năm gần đây, chủ yếu tập trung vào việc đánh lừa thị giác của
mọi người.
Hiện nay, công nghệ AI trong thiết kế video có thể ghép
khuôn mặt của một người lên cơ thể của một người khác, nghệ thuật siêu thực này
được phát triển dựa trên đề xuất của người dùng và tạo ra những rắc rối về vấn
đề đạo đức xung quanh những kỹ thuật này.
Nhưng một phương pháp đặc biệt khác bắt chước kỹ thuật số đầy
thuyết phục người thụ hưởng, chỉ gần đây mới có được sự kiểm tra và nghiên cứu
xem xét một cách thích hợp.
Bộ lọc giọng nói, dù không phải là mới, nhưng gần đây bắt đầu
lôi kéo sự chú ý của các chuyên gia do có sự hỗ trợ của AI. Thật không may,
công nghệ này hình thành hàng loạt các tác động xã hội nghiêm trọng và tương tự
như ngành công nghiệp video deepfake, có rất ít cơ quan quản lý có thể kiểm
soát, phát hiện và ngăn chặn.
Các công cụ AI mới nổi như Koe Recast và Voice.ai cho thấy
khả năng biến đổi đầu vào âm thanh thành âm thanh đầu ra giống như hầu như giống
bất kỳ ai nếu được cung cấp đủ dữ liệu âm thanh nguồn để phân tích.
Trong một số trường hợp, các chương trình này chỉ cần một đoạn
clip dài từ 15 đến 30 giây là có thể tạo ra những màn bắt chước thuyết phục. Mặc
dù Koe Recast mới chỉ đang trong giai đoạn thử nghiệm alpha riêng tư, nhưng đã
có sẵn các ví dụ mô tả trong một clip ngắn của Mark Zuckerberg, phát biểu giống
như một người kể chuyện nặng về âm trầm, giọng của một phụ nữ và thậm chí là một
nhân vật anime có âm vực cao .
Asara Near, người
sáng tạo ra Koe Recast ở Texas nói với Ars Technica trong một cuộc phỏng vấn tuần
trước: “Mục tiêu của tôi là giúp mọi người thể hiện bản thân theo bất kỳ cách
nào khiến cảm giác hạnh phúc hơn”. Near nói thêm đang có dự định phát hành một ứng
dụng dành cho máy tính, có thể chuyển đổi giọng nói của người dùng trong thời
gian thực trên các nền tảng như Discord và Zoom.
Khi được hỏi về khả năng những tội phạm công nghệ có thể sử
dụng Koe Recast để tấn công cá nhân và cung cấp thông tin sai lệch, Near lập luận:
"Như với bất kỳ công nghệ nào, sẽ có cả hai mặt tích cực và tiêu cực,
nhưng tôi nghĩ phần lớn mọi người sẽ được hưởng lợi nhiều từ kỹ thuật này. ”
Nhưng các nhà phê bình vẫn hoài nghi việc tin tưởng vào những
công cụ có khả năng gây hỗn loạn như vậy.
Gần đây, một số đại diện trung tâm cuộc gọi ngoài bắt đầu sử
dụng phần mềm AI để xóa giọng gốc quốc gia bản địa, để đối tác nghe có vẻ
"Mỹ" hơn trong nỗ lực giảm thiểu thành kiến của các đối tác phương
Tây. Nhóm sáng tạo này đưa ra nhiều luận điểm để biện minh cho công nghệ, nhưng
các nhà phê bình cho rằng, đây đơn giản chỉ là cung cấp một phương tiện tránh đối
mặt với các vấn đề lớn hơn như bài ngoại và phân biệt chủng tộc.
Tương tự như vậy, nhân viên tại một số doanh nghiệp lớn và một
số người trở thành con mồi của những kẻ lừa đảo, tội phạm sử dụng chuyển đổi âm
thanh, bắt chước giọng nói chủ chủ doanh nghiệp hoặc người thân của gia đình
yêu cầu chuyển tiền và mật khẩu tài khoản. Ngoài ra, kẻ tội phạm có thể sử dụng
thủ đoạn này, kết hợp với video deepfake và các công nghệ khác để thực hiện các
cuộc tấn công khủng bố hoặc lừa đảo.
“Trong số các doanh nghiệp lớn hơn, tôi nghĩ rằng ngày càng
nhiều người bắt đầu thực sự thấy được nguy cơ này vì rất khó để xác định cuộc gọi
có phải là của sếp doanh nghiệp hay không,” Kyle Alspach , phóng viên an ninh mạng
Protocol giải thích khi phát biểu trên NPR's Marketplace gần đây .
Dù ông Alspach lưu ý rằng, những kiểu lừa đảo này vẫn còn sơ
khai, nhưng sẽ không lâu nữa những chiến thuật này trở nên phổ biến hơn, và nếu
tình huống diễn ra thời gian thực, rất khó phân biệt sự thật với hư cấu. Thật
không may, đơn giản là không có gì ngăn cản được sự gia tăng nhanh chóng các kỹ
thuật bắt chước âm thanh và hình ảnh hỗ trợ AI.