Một nhóm nghiên cứu thuộc OpenAI tại San Francisco công bố phát triển hệ thống Máy học, tạo mô hình 3D từ văn bản với tốc độ cao. Nhóm kỹ sư đã xuất bản một bài báo mô tả hệ thống này, được gọi là Point-E.
OpenAI đã phát hành phần mềm mã nguồn mở Point-E, một hệ thống
Máy học tạo đối tượng 3D với lời nhắc văn bản. Theo một bài báo được xuất bản
cùng mã nguồn trên trang trên arXiv, Point-E có thể tạo các mô hình 3D trong một
đến hai phút trên bộ xử lý đồ họa (GPU) Nvidia V100.
Point -E chuyển đổi từ nhắc văn bản thành các mô hình 3D. Ảnh OpenAI
Point-E không tạo đối tượng 3D theo phương thức truyền thống.
Thay vào đó, phần mềm tạo ra các đám mây điểm hoặc tập hợp các điểm dữ liệu
riêng biệt trong không gian đại diện cho hình dạng 3D, do đó có tên viết tắt
táo bạo Point –E. (Chữ “E” trong Point-E là viết tắt của “hiệu quả”) do có tốc
độ cao hơn các phương pháp tạo đối tượng 3D hiện nay. Những đám mây điểm dễ tổng
hợp hơn từ quan điểm tính toán, nhưng những điểm phi vector không hình thành được
cấu trúc chi tiết của đối tượng, hình dạng hoặc kết cấu, một hạn chế chính của
Point-E.
Để giải quyết hạn chế này, nhóm Point-E đào tạo một hệ thống
AI bổ sung, chuyển đổi các đám mây điểm của Point-E thành dạng lưới tam giác
bao gồm tập hợp các đỉnh, cạnh và mặt, thường được sử dụng trong thiết kế và mô
hình 3D. Nhưng nhóm nghiên cứu lưu ý trong bài báo, mô hình đôi khi có thể bỏ
sót một số phần nhất định của đối tượng, khiến đối tượng có dạng khối hoặc méo
mó.
Ngoài mô hình tạo lưới độc lập, Point-E bao gồm hai mô hình
AI: Mô hình chuyển văn bản thành hình ảnh và Mô hình chuyển hình ảnh thành 3D.
Mô hình chuyển văn bản thành hình ảnh, tương tự như các hệ thống AI nghệ thuật
tổng quát như DALL-E 2 và Stable Diffusion của OpenAI, được đào tạo trên những
hình ảnh dán nhãn để AI hiểu mối liên hệ giữa từ ngữ và khái niệm hình ảnh. Mô
hình chuyển hình ảnh sang 3D được cung cấp một tập hợp những hình ảnh, liên kết
với các đối tượng 3D để Máy học cách dịch hiệu quả giữa ảnh và đối tượng.
Khi đưa ra lời nhắc văn bản — ví dụ: “một bánh răng có thể
in 3D, một bánh răng đơn có đường kính 3 inch và dày nửa inch” — Mô hình chuyển
văn bản thành hình ảnh của Point-E, tạo ra một đối tượng kết xuất tổng hợp, đối
tượng này được chuyển vào mô hình 3D, tạo ra một đám mây các điểm.
Các nhà nghiên cứu OpenAI cho biết, sau khi đào tạo những mô
hình trên tập dữ liệu gồm “vài triệu” đối tượng 3D và siêu dữ liệu liên quan,
Point-E có thể tạo ra các đám mây điểm màu khớp với những lời nhắc văn bản. Đối
tượng 3D không hoàn hảo — Mô hình chuyển hình ảnh sang 3D của Point-E đôi khi
không hiểu được hình ảnh từ mô hình chuyển văn bản sang hình ảnh, dẫn đến hình
dạng không khớp với lời nhắc văn bản. Nhưng Point-E tạo đối tượng 3D có tốc độ
nhanh hơn so với các phần mềm truyền thống.
Chuyển đổi các đám mây điểm Point-E thành các mắt lưới. Ảnh
OpenAI
Trong bài báo khoa học, nhóm nghiên cứu viết: “Mặc dù phương
pháp của chúng tôi thực hiện theo đánh giá chung kém hơn nhiều so với những kỹ
thuật hiện đại, nhưng mô hình tạo ra các mẫu trong một khoảng thời gian rất ngắn.
Đặc điểm này khiến công nghệ có thể trở nên thiết thực hơn đối với một số ứng dụng
nhất định hoặc cho phép khám phá vật thể 3D với chất lượng cao.”
Các nhà nghiên cứu OpenAI cho rằng, những đám mây điểm Point-E
có thể được sử dụng để chế tạo các vật thể trong thế giới thực, sử dụng công
nghệ in 3D. Với mô hình chuyển đổi từ dạng đám mây điểm dạng lưới bổ sung, hệ
thống có thể, khi được học sâu hơn nữa có thể tìm được ứng dụng trong phát triển
trò chơi tùy chỉnh và hoạt hình 3D do người dùng sáng tạo.
OpenAI là công ty mới nhất tham gia vào cuộc cạnh tranh tạo
đối tượng 3D, nhưng không phải là công ty đầu tiên. Đầu năm 2022, Google phát
hành DreamFusion, phiên bản mở rộng của Dream Fields, một hệ thống 3D chung mà
công ty ra mắt vào năm 2021. Mạnh hơn Dream Fields, DreamFusion không yêu cầu
đào tạo trước, nghĩa là mô hình có thể tạo ra các đối tượng 3D từ một bức ảnh mà
không cần dữ liệu 3D.
Mặc dù hiện nay tất cả đang tập trung sự quan tâm và lo lắng
vào các trình tạo nghệ thuật 2D, nhưng AI tổng hợp mô hình có thể là phần mềm
gây rối lớn tiếp theo trong lĩnh vực Trí tuệ Nhân tạo. Mô hình 3D được sử dụng
rộng rãi trong phim và TV, thiết kế nội thất, kiến trúc và các lĩnh vực khoa
học khác nhau. Đặc biệt, các công ty kiến trúc thường xuyên sử dụng mô hình
3D để trình diễn các tòa nhà và cảnh quan được đề xuất, các kỹ sư cũng sử dụng
những mô hình 3D để thiết kế các trang thiết bị, phương tiện và cấu trúc mới.
Các trường hợp lỗi Point-E. Ảnh OpenAI
Thường phải mất nhiều thời gian để sản xuất (đồ họa) các mô
hình 3D, khoảng từ vài giờ đến vài ngày. Trong tương lai, Point-E có thể thay đổi
điều đó nếu trong quá trình đào tạo AI, giải quyết những thách thức khác nhau
giữa mô hình đồ họa và tạo mô hình từ văn bản nhắc. Đạt được điều này, OpenAI có
thể sẽ có một nguồn doanh thu không nhỏ.
Nhưng Point-E cũng đặt ra vấn đề tranh chấp sở hữu trí tuệ.
Có một thị trường rộng lớn cho các mô hình 3D, một số thị trường trực tuyến như
CGStudio và CreativeMarket, cho phép các nhà đồ họa bán các sản phẩm đã tạo ra.
Trong tương lai gần, Point-E có thể nhanh chóng bắt kịp và các mô hình 3D xuất
hiện trên thị trường, điều đó sẽ dẫn đến tranh chấp bản quyền do AI tổng quát
hiện đại, như phần mềm Point-E sẽ sử dụng rất nhiều hình ảnh từ dữ liệu đào tạo,
những mô hình 3D hiện có. Tương tự như DALL-E 2, Point-E không ghi nguồn gốc của
bất kỳ nhà sáng tạo nào, đã ảnh hưởng đến những đối tượng 3D được tạo ra.
Nhóm nghiên cứu giới thiệu hệ thống Point-E với quyền truy cập
mở, người dùng muốn làm việc với phần mềm có thể truy cập mã trên trang GitHub.
Các kỹ sư OpenAI thận trọng mô tả, Point-E là “điểm khởi đầu” sẽ truyền cảm hứng
cho “những nghiên cứu và phát triển tiếp theo” của cộng đồng trong lĩnh vực tổng
hợp văn bản thành 3D.