
DLSS 5 của Nvidia không thông minh như tôi từng nghĩ
Tóm tắt
Thông tin từ Nvidia về DLSS 5 qua cuộc trao đổi với Jacob Freeman, nhà truyền bá GeForce, tiết lộ công nghệ này hiện tại hoạt động đơn giản hơn nhiều so với kỳ vọng. DLSS 5 chỉ nhận đầu vào là hình ảnh 2D tĩnh cùng vector chuyển động, không có hiểu biết về hình học 3D hay độ sâu của cảnh. Mô hình được huấn luyện để suy luận thông tin từ một khung hình duy nhất, nhưng không thể tiếp cận dữ liệu "chân thực" từ động cơ trò chơi. Điều này đặt ra câu hỏi về khả năng kiểm soát nghệ thuật của nhà phát triển và độ chính xác của các cải tiến như tính chất vật liệu PBR.
Chúng tôi đã cố gắng lấy thông tin từ Nvidia về DLSS 5 trong vài ngày qua và vẫn đang chờ đợi câu trả lời. Tuy nhiên, techtuber Daniel Owen đã có được một số thông tin. Trong một video mới, Jacob Freeman, nhà truyền bá GeForce, đã cung cấp những chi tiết khá sáng tỏ về những gì DLSS 5 thực sự làm. Và hiện tại, nó dường như kém thông minh hơn nhiều so với tôi mong đợi.
Với các bản demo tại Hội nghị Công nghệ GPU (GTC) tuần này được chạy bằng một cặp card đồ họa RTX 5090—một để render trò chơi bình thường và một GPU trị giá 4.000 USD khác để chạy đường tính toán DLSS 5—có vẻ như có thể có điều gì đó vượt xa hơn chỉ là bộ lọc AI như đã thấy ban đầu khi Jen-Hsun giới thiệu nó trong bài phát biểu chính tại GTC tuần này.
Nhưng không, câu trả lời trực tiếp từ chính Nvidia cho thấy tất cả các bản xem trước sớm hiện tại của DLSS 5 chỉ sử dụng đầu vào là một hình ảnh 2D tĩnh. Như Freeman nói: "DLSS 5 lấy một khung hình 2D cộng với vector chuyển động làm đầu vào." Vì vậy, trừ khi Freeman đang đơn giản hóa quá mức mọi thứ ở đây, về cơ bản nó thực sự chỉ là chụp ảnh màn hình một trò chơi và áp dụng bộ lọc AI lên đó.
Chắc chắn, ấn tượng là Nvidia đã cung cấp các đường dẫn tính toán để cho phép việc này được thực hiện với tốc độ nhanh đến mức có thể được sử dụng hiệu quả trong thời gian thực trong một cảnh, và nó dường như cũng có thể duy trì tính nhất quán giữa các khung hình đó, nhưng các yếu tố kỹ thuật thực tế của các 'cải tiến' DLSS 5 nghe không thực sự sâu sắc đến vậy.
Mô hình DLSS 5 chỉ nhận biết các vector chuyển động được đính kèm với một hình ảnh tĩnh (nơi các đối tượng trong cảnh đến từ đâu và chúng đang đi đâu) và một hình ảnh 2D duy nhất. Nó không có hiểu biết, ngoài bề mặt phẳng của khung hình đó, về hình học 3D hoặc độ sâu của một cảnh, hoặc về chi tiết của bất kỳ ánh sáng nào nằm ngoài hình ảnh trước mặt nó.
Freeman lưu ý mô hình DLSS 5 đã được huấn luyện như vậy và được thiết kế để có thể suy luận thông tin về "ngữ nghĩa cảnh phức tạp như nhân vật, tóc, vải và da trong suốt, cùng với điều kiện ánh sáng môi trường như ánh sáng phía trước, ánh sáng ngược hoặc u ám—tất cả bằng cách phân tích một khung hình duy nhất."
Vì vậy, tất cả chỉ phụ thuộc vào những gì nó có thể suy luận từ một hình ảnh 2D và không thể được cung cấp bất kỳ "sự thật cơ bản" nào về những gì thực sự đang được đưa vào cảnh đó. Rõ ràng nó hoàn toàn bị giới hạn trong không gian màn hình và mô hình không có nhận thức về bất cứ điều gì nằm ngoài hình ảnh duy nhất mà nó đang xử lý.
Một phỏng đoán tốt nhất là ổn trong một số trường hợp, chắc chắn, nhưng chúng ta đang nói về việc đi theo con đường xác suất cho những thứ như ánh sáng môi trường khi, nếu bạn đang sử dụng dò tia đường đi, bạn có các khu vực và nguồn sáng rất xác định.
Và ánh sáng xác định là một lĩnh vực mà các nhà phát triển có thể có những ý tưởng rất rõ ràng về cách họ muốn trò chơi của mình trông như thế nào trong đánh giá cuối cùng. DLSS 5 sẽ không giúp ích gì ở đó nếu nó chỉ đơn giản là đưa ra một phỏng đoán về những gì nó nghĩ nó nên trông như thế nào.
Owen cũng hỏi cụ thể về những lo ngại xung quanh hình học và kết cấu cơ bản dường như bị thay đổi đáng kể bởi DLSS 5 cũng như về những khẳng định của Nvidia rằng tính năng này có thể "nâng cao thuộc tính PBR [kết xuất dựa trên vật lý] trên vật liệu (độ nhám, thực tế hơn), với tương tác ánh sáng thực tế hơn." Họ lưu ý đường chân tóc bị thay đổi của một mô hình trong Starfield và vấn đề hoàn toàn có vấn đề của, thứ sẽ mãi mãi được biết đến là, 'Grace được làm đẹp'.
Trong khi Freeman lưu ý, như Nvidia đã tuyên bố rõ ràng trước đây, hình học cơ bản không thay đổi, điều đó không tự động có nghĩa là bạn vẫn sẽ nhìn thấy nó. Những gì nó dường như đang làm là mô hình DLSS 5 có thể đơn giản vẽ một thứ khác mà nó thích hơn lên trên hình học cơ bản để điều đó gần như trở thành một điểm không đáng kể.
Về phía PBR, một lần nữa mọi thứ cảm thấy đơn giản hơn nhiều so với tôi mong đợi. Rõ ràng không có cấp độ nào của DLSS 5 kết nối với động cơ trò chơi để mô hình có các móc nối có thể cho nó biết những gì cần mong đợi từ một bề mặt—đó là vật liệu gì, nó có ướt không, nó nhám như thế nào, v.v.—vì vậy cách duy nhất nó có thể "nâng cao thuộc tính PBR" là bằng cách 'nhìn' vào chúng và đưa ra một phỏng đoán có học thức về chúng là gì. Nó thực sự không có quyền truy cập vào những gì các nhà phát triển đã đưa vào thế giới của họ, chỉ là suy luận. "Vật liệu được suy luận từ khung hình đã render," Freeman nói, một lần nữa lưu ý rằng không có đầu vào nào khác.
Chi tiết đáng lo ngại khác từ các phản hồi của Nvidia xoay quanh việc các nhà phát triển có những công cụ điều chỉnh và đòn bẩy nào để duy trì quyền kiểm soát nghệ thuật đối với một cảnh. Và có vẻ như đó là tất cả những gì họ có. Tôi ngây thơ cho rằng, từ kinh nghiệm của mình với AI thế hệ, sẽ có một số cơ chế nhắc nhở, nơi nhà phát triển có thể điều chỉnh mô hình DLSS 5, để điều chỉnh mức độ 'nhiệt' hoặc để kiềm chế những xung động sáng tạo hoang dã hơn của nó, hoặc có thể yêu cầu thêm hoặc điều chỉnh một số thứ nhất định trong một cảnh.