更多

    GeForce RTX 50 Blackwell 技術預覽

    Wesley
    Wesley
    經遊戲進入腦界,見證 3D 渲染技術及遊戲引擎互相進步,深信 PC 平台或成最大贏家。

    NVIDIA 的 Blackwell 架構 RTX 50 發表,在實卡解禁前,官方先公開更多新架構特點,當中為實現影視級離線渲染畫質而生的 RTX Neural Rendering,以及加速運行語言模型等,對今代的核心基礎有進一步改革。

    首見 Neural Shaders

    RTX Neural Rendering 隨 RTX 50 推出,目標為提升實時渲染的影視級效果,行之多年的可編程 Shader 雖有彈性,但面對複雜的物料質感如絲絹、寶石金屬等,需要使用很長的代碼及較多渲染資源,近看才會有高度逼真感。改用神經網絡渲染訓練後,可大幅提升效率簡化部署,但就需要為 GPU 的 Shader 加入小型人工智能網絡,在 Blackwell GPU 上以 Neural Shaders 實現。而 Microsoft 亦會引入 Cooperative Vectors,解鎖更多 Tensor Core 的潛在用途,讓開發者全面加速使用 Neural Shaders。

    有了 Neural Shaders 幫助,RTX Neural Rendering 可實現更多以往高負載的渲染功能,如渲染規模、材質、粒子效果、光線細節等:

    全新 DLSS 4 4X 影格生成

    DLSS 3 目前已經十分成熟,特別在 Ultra preformance 下的畫質甚為顯著,影格生成也有好評,Blackwell 世代有更高效核心,而且升級至 DLSS 4,有全新多重影格生成可達 3X 及 4X,只有 RTX 50 顯示卡可以支援。它並非簡單從 DLSS 3 的影格生成強行「插值」,在渲染流程中需要用到 GPU 內的 Flip Metering 單元進行檢測,配合 AI Optical Flow 和 DLSS 4 達至可接受及平穩的 4X 效果。在最理想情況下,每 16 個像素中有 15 個由 DLSS 4 所生成,而玩家不會感受到明顯差異。

    另外 DLSS 3 使用 convolutional neural networks (CNNs) 模型作運算,今次 DLSS4 會引入 Transformer 模型,能參考更多位置,對於光線重建(Ray-reconstruction)等場合,要應用 2 倍參考數量和需要 4 倍計算量,以達成更高畫面穩定性,減少殘影閃爍瑕疵等,增加細節還原度。廠商特別在《NVIDIA App》內加入 DLSS 覆蓋選項,可為 DLSS 3 的遊戲強行調用 DLSS 4 多重影格生成或切換畫質更好的 Transformer 模型。

    Reflex 2 預測渲染

    影格生成會發生額外延遲值,DLSS 3 會配合 Reflex 技術解決,而 DLSS 4 多重影格生成會配合 Reflex 2 技術的 Frame Warp,即使競技遊戲都可使用,原理是檢測滑鼠最後位置,對比遊戲的前後幀、色彩、深度值等對生成畫面進行變形和修復再輸出,屬 Predictive Rendering 預測渲染技巧。有了以上種種,RTX 50 + DLSS 4 能在 4K 240 顯示器上大幅提升流暢度。

    Blackwell 架構變化

    Blackwell GPU 晶片

    Blackwell GPU 晶片的架構比上代更複雜,不單針對提升 AI 算力及加入 Neural Shader,亦有為功耗及記憶體連線作增強。現在每個 SM 單元內的 CUDA core 改為統一 FP32/INT32,比 ADA 架構的 FPS32/INT32+FP32 混搭更有效率,而且升級 5 代 Tensor Core 可支援直接運行 FP4 精度運算,令吞吐量比上代升一倍。

    其 RT Core 進化至第 4 代,針對 Ray Triangle intersection 引擎作出增強,支援叢集化處理/解壓及 Linear Swept Spheres 運算,比 ADA 架構有一倍提升而只有 75% 記憶體佔用率。

    Blackwell GPU 分派 Neural Shader 指令的排序單元效率亦有 2X 改善,加上新增 AI Management Processor 會配合語言模型使用狀態,統整 RT/CUDA/Tensor Core 運行,以同時提供更佳回應延遲及平順畫面渲染+影格生成。

    由於電晶體及單元數量更多,Blackwell GPU 亦全面支援 Max-Q 節能設計,除了轉用 GDDR7 記憶體的能源效益有近一倍改善,GPU 各區塊的時脈、供電及功率控制有加強,在低電狀態下改善效能及時脈反應更快速復原,能更多使用深層睡眠來節電。

    在影像方面,Blackwell GPU 已升級到 DisplayPort 2.1 UHBR20,對應更高解像度及更新率,而影片處理升級至 9 代編碼器及 6 代解碼器,支援 AV1 UHQ、2x H.264 解碼、MV-HEVC,以及新一代主流拍片裝置提供的 4:2:2 格式編碼解碼,可提升影片處理效率。

    Blackwell RTX 50 的架構革新令玩家期待,而且桌面機的本機 AI 應用也會隨新卡正式上市與 RTX AI PC 計劃加速進行,有關 RTX 50 首批顯示卡及效能解禁,請留意《PCM》的更新。

    最新影片

    您會感興趣的內容

    相關文章