Ngày 19/9, trang web D-ID công bố một dịch vụ mới được hỗ trợ bởi trí thông minh nhân tạo có thể biến chân dung thành một người đang thuyết trình hoặc nói chuyện.
Ứng dụng tự phục vụ này được gọi là Creative Reality Studio có
thể biến hình ảnh của một chân dung thành video cùng với giọng nói, được công
ty D-ID phát triển, cung cấp cho các doanh nghiệp một công cụ thuyết trình.
Dịch vụ nhắm phục vụ những người sáng tạo nội dung kinh
doanh, các cơ sở học tập và phát triển, bộ phận nhân sự, nhà tiếp thị, nhà quảng
cáo và các nhóm bán hàng, nhưng ai cũng có thể sử dụng thử công nghệ này tại
trang web D-ID .
Video Creative Reality Studio của John P. Mello Jr.
Theo công ty D-ID của Israel, nền tảng này giúp giảm chi phí
và sự phức tạp khi tạo ra nội dung video của công ty, cho phép nhiều người thuyết
trình không giới hạn, sử dụng ảnh của người dùng hoặc bất kỳ hình ảnh nào mà
người dùng có quyền sử dụng. Công nghệ này đã được sử dụng trong một ứng dụng
có tên là Deep Nostalgia . Phần mềm được giới thiệu như một thủ thuật tạo hoạt ảnh
cho những bức chân dung cũ.
Theo thông báo báo chí và trên trang web của D-ID, công nghệ
này cho phép khách hàng và người dùng chọn danh tính của người thuyết trình như
dân tộc, giới tính, tuổi tác và thậm chí cả ngôn ngữ, giọng và ngữ điệu. Lợi thế
này mang lại tính đại diện và đa dạng hơn, mang đến một cảm giác mạnh mẽ về sự
thân thiện và hòa nhập, thúc đẩy khả
năng tiếp cận và tương tác với các doanh nghiệp, sử dụng phần mềm thuyết trình
này.”
Phó chủ tịch tiếp thị công ty D-ID Matthew Kershaw trong cuộc
phỏng vấn với TechNewsWorld cho biết:
“Các trường hợp sử dụng
bao gồm trao quyền cho người tạo nội dung thuyết trình tích hợp liền mạch video
trong không gian kỹ thuật số với bản trình bày cùng module PowerPoint độc quyền,
tạo nội dung thuyết trình hấp dẫn hơn bằng cách sử dụng trình tường thuật video
tùy chỉnh của D-ID”.
Dịch vụ truyền thông ấn tượng
Daniel Castro, phó chủ tịch Quỹ Đổi mới và Công nghệ Thông tin,
một tổ chức nghiên cứu và chính sách công ở Washington, DC Mỹ cho biết chất lượng
của các dịch vụ này khá ấn tượng và tiếp tục được phát triển tốt hơn.
Trong cuộc phỏng vấn với TechNewsWorld, ông nói: “Dịch vụ
này không ở mức thay thế hoàn toàn một người thuyết trình, nhưng không có lý do
gì để không tin tưởng, một dịch vụ gần như thay thế hoàn toàn người thuyết
trình có thể sớm xuất hiện.
D-ID giải thích, các tổ chức, cơ quan và doanh nghiệp đang tăng
cường sử dụng video, nhiều đơn vị kinh doanh, sản xuất đang tích hợp video vào
các chiến lược đào tạo, truyền thông và tiếp thị.
Làm gia tăng xu hướng sử dụng video là thế giới avatar và
metaverse đang phát triển nhanh chóng, cả hai đều đòi hỏi phương pháp tiếp cận
nội dung số phải sáng tạo, nhập vai và tương tác hơn từ những người sáng tạo kỹ
thuật số. Nhưng ngân sách sản xuất video tốn kém, đòi hỏi sự phân bổ thời gian
đáng kể và tài năng.
Ross Rubin, nhà phân tích tại Reticle Research, một công ty
tư vấn công nghệ tiêu dùng ở Thành phố New York, nhận xét: “Dịch vụ này là sự
phát triển của hình ảnh đại diện cho cơ quan, doanh nghiệp và tổ chức, biểu tượng
cảm xúc mà mọi người sử dụng hiện nay, nhưng dịch vụ này có thể được sử dụng
trong một cuộc thảo luận hoặc trình bày dài hơn.
Ông nói với TechNewsWorld: “Ý tưởng đặt ra là tiết kiệm thời
gian, đặc biệt khi người dùng định đọc một bản thuyết trình. Hình ảnh động hấp
dẫn hơn đối với người nghe, chứ không chỉ
là âm thanh hoặc các trang trình bày Power Point đơn giản.”
Dân chủ hóa Trí tuệ nhân tạo (AI)
Giám đốc điều hành và đồng sáng lập D-ID Gil Perry lưu ý
trong thông cáo báo chí rằng công nghệ của công ty, vốn được giới hạn trong phạm
vi doanh nghiệp, đã được sử dụng để tạo ra 100 triệu video.
“Bây giờ chúng tôi đang cung cấp nền tảng Thực tế Sáng tạo tự
phục vụ, tiềm năng rất lớn. Dịch vụ cho phép cả các doanh nghiệp lớn, các công
ty nhỏ và dịch giả tự do sản xuất video cá nhân hóa cho nhiều mục đích ở quy mô
lớn với chi phí thấp hơn rất nhiều.”
Kershaw nói thêm, công nghệ của D-ID sẽ dân chủ hơn nữa
trong sự sáng tạo. "Tôi nói"tiếp tục" bởi trên thực tế, công nghệ
đã dân chủ hóa nghệ thuật trong nhiều thập kỷ".
“Từ sự khởi đầu của đàn
organ điện, bộ lấy mẫu và bộ tạo chuối âm thanh trong âm nhạc đến Photoshop và
Illustrator trong nhiếp ảnh và minh họa, Phần mềm Premier chỉnh sửa video và đồ
họa chuyển động trong sản xuất phim, khả năng tạo ra các sản phẩm chất lượng
cao bên ngoài các studio cao cấp chuyên nghiệp đã diễn ra từ những năm 1980. Đây
chỉ là tập mới nhất trong loạt các công cụ đó.”
Avivah Litan, nhà phân tích bảo mật và quyền riêng tư của
Gartner đồng ý với bình luận này, bà nói với TechNewsWorld: “Đó chắc chắn là một
bước tiến hướng tới dân chủ hóa AI. Dịch vụ có khả năng sử dụng tuyệt vời trong
giáo dục, chăm sóc sức khỏe và bán lẻ. Đây là một phương thức tốt hơn để giao
tiếp với mọi người. Chúng ta đang tiến tới một xã hội trực quan. Không ai có thời
gian để đọc bất cứ thứ gì”.
Mối quan tâm về Deepfake
Hiện nay, ngày càng gia tăng mối quan tâm về việc sử dụng
"deepfakes" để truyền bá thông tin sai lệch và khi kỹ thuật xã hội
lên tầm cao mới, luôn tiềm ẩn nguy cơ lạm dụng các giải pháp truyền thông tổng
hợp mới như D-ID.
Ông Kershaw nói “Như với bất kỳ công nghệ nào, công nghệ này
cũng có thể bị những kẻ xấu lợi dụng, mặc dù nền tảng hướng đến các doanh nghiệp
hợp pháp, những tổ chức không quan tâm đến các thông tin giả mạo,”.
“Trong nền tảng của D-ID, chúng tôi áp dụng nhiều biện pháp
bảo vệ để đảm bảo công nghệ của chúng tôi không bị sử dụng theo cách tạo dựng
deepfakes,” ông nói thêm. "Chúng tôi không cho phép sao chép giọng nói của
những người nổi tiếng hoặc sử dụng các bức ảnh của những người nổi tiếng không
có sự đồng ý của người đó." Phần mềm cũng lọc các từ chửi thề và nhận xét
phân biệt chủng tộc, đồng thời cấm sử dụng nền tảng này để tạo video chính trị.
Bà Litan nhận xét: “D-ID đang đặt các rào chắn trên nền tảng
công nghệ, nhưng các rào chắn không bao giờ hoàn hảo. Đây có thể là một công cụ
tuyệt vời để lan truyền thông tin sai lệch vì những trang mạng xã hội này không
được chuẩn bị cho những thủ thuật lừa đảo sâu. Ngay cả khi các trang web truyền
thông xã hội có khả năng xác định deepfakes tốt, nhưng sẽ không bao giờ đủ tốt.
Lan truyền video âm thanh giống như thư rác. Thư rác luôn được thông qua, video
cũng vậy nhưng hậu quả sẽ tồi tệ hơn”.