日前,因為英偉達CEO黃仁勛在一場演講中用了14秒的“數字人”視頻引發了廣泛的關注,從而把“數字人”乃至“元宇宙”從專業人士帶入到大眾視野。
澎湃新聞記者日前對話了英偉達三位技術專家,英偉達中國區高級技術市場經理施澄秋、英偉達高級解決方案架構師宋毅明和英偉達中國區傳媒娛樂行業經理何展(文中統一用英偉達技術專家來稱呼)來講述什么是數字人、什么是元宇宙,元宇宙離我們到底有多遠,元宇宙會帶來那些改變?
英偉達將自己定位為提供基礎底層服務架構的。元宇宙概念平臺Omniverse像是一個工具箱,也是一個技術平臺底座,集合了英偉達過去二十多年在AI、HPC和圖形各方面的技術、算法、標準。英偉達希望搭建一個技術平臺,服務藝術家、創造者以及一些C端、B端的用戶。
英偉達技術專家表示,Omniverse為“數字人”引入了最接近“人”的表情、語言系統,相比此前繁瑣的技術環節,現在只需要通過基于AI深度神經網絡感知能力的英偉達會話式人工智能系統,把文字變成豐富面部表情,再基于AI實時渲染系統疊加到虛擬人上。英偉達認為,當可以實現數字人和真實人類之間的溝通交互,實現真實和虛擬世界交互時,也就完美契合了元宇宙概念,這個階段要在五到十年后。【責任編輯/常琳】
以下與英偉達技術專家對話節選
澎湃新聞:上周SIGGRAPH2021大會上播放了一部關于GTC Keynote演講的紀錄片,揭示了數字生成在臺前幕后的新應用,其中有一個14秒視頻是黃仁勛的“數字人”虛擬視頻,引發了廣泛關注。這里面用到了哪些技術,請介紹一下數字人的發展。
英偉達技術專家:在演講中黃仁勛有十幾秒的虛擬分身,可以看作一個數字人。其實可以把數字人概念當成卡通人物或虛擬角色,它已經存在已久。比如虛擬偶像開演唱會,日本動漫行業也推出了好幾個虛擬偶像,形象很豐滿。這些和傳統動畫片人物的最大分別在于,其不僅利用了3D渲染技術讓它看起來更像一個人,還利用了全息技術實現裸眼3D,讓它栩栩如生地站在舞臺上唱歌,這些都是傳統概念當中虛擬人必備的一些元素。
但在NVIDIA看來,虛擬人是虛擬出來的,應該更接近一個“人”,即數字人(Digital Human)。人類和虛擬角色、卡通人物最大的區別是有感情、能夠體會到喜怒哀樂,且能夠把喜怒哀樂實時地通過語言、表情等來體現,這也是虛擬人的精髓。也就是說,虛擬人的外形要栩栩如生,這就要利用英偉達GPU技術來渲染,以實現皮膚、毛發、衣物、配飾符合自然界物理定律。如果這個人物在跳舞的時候項鏈不動、貼在身上,那就不是虛擬人了,而是普通的3D動畫。并且如果十年前推出的虛擬角色和二十年后推出的虛擬角色頭發都一樣,那也不切實際,年輕人、中年人、老年人的毛發系統是不同的,皮膚隨著年齡的增長也是不一樣的。
Omniverse(英偉達推出的以元宇宙概念為基礎虛擬協作和模擬平臺)中的OmniSurface系統能夠渲染不同的材質和表面,針對數字人也有一系列不同的渲染機制。利用GPU渲染可以讓數字人更接近真實的人類,這是數字人的第一個方面。
第二個方面,RTX Render技術,即實時光線追蹤技術。把數字人放到虛擬環境中后,環境有光照系統,也有傳統的路徑追蹤系統,虛擬人會和周遭環境進行互動,虛擬人和環境的多次光線迭代也會給整個環境全局照明帶來影響, OmniSurface加上RTX Render可以實現實時的數字人(Digital Human)渲染,以及材料、POV的渲染,從元宇宙概念來看整個虛擬世界,模擬城市、人員、建筑等一系列復雜的生態環境系統都可以通過Omniverse完成,這是數字人和環境的互動。
最重要的是,為數字人引入最接近“人”的喜怒哀樂——表情、語言系統。Audio2Face只需要一段文字,便能夠通過基于AI深度神經網絡感知能力的英偉達會話式人工智能系統,來感知語言下的情緒,把一段文字變成豐富的面部表情,再自動基于AI實時渲染系統疊加到虛擬人上。而以前則要進行配音、口形適配,并考慮當前的語態、語境,進行面部表情分離,重新渲染面部表情,整個環節太繁瑣,時間、人力、物力成本都過于巨大。
現在,結合Audio2Face、OmniSurface和RTX Render能夠實時地把數字人做得更逼真更詳實,不僅是一個虛擬內容,更注重的是用數字化的形式呈現“人類”。在Omniverse加持之下,能夠滿足過去數十年我們對虛擬人的設想,通過當前的軟硬件技術以及網絡云原生的Omniverse平臺,以一站式解決方案把數字人包裝得更逼真、更詳實、更符合自然界的物理定律,無論是人本身的皮膚、毛發,還是身上的配飾、衣物,甚至與周遭的環境、光線的互動,都能更好地實現。
隨著每個數字人周遭環境的放大,以及日后GPU算力、Omniverse平臺能力的不斷提升和版本迭代,我們最終能夠實現元宇宙的構想。
澎湃新聞:英偉達數字人的路線圖是什么?什么時候能做到假人和真人之間的交互?
英偉達技術專家:英偉達在硅谷有專門的數字人研究團隊,有非常清晰的路線圖。
第一階段,要把它做像了,利用CG(計算機動畫)技術和實時光線追蹤渲染技術把它做像了。比如14秒黃仁勛數字人分身,這一階段已經非常成熟到位了,很多平臺都可以做到,只要有非常懂CG藝術的專家和設計者,將相關的動物采集數據、鏡頭,甚至血液流動算法等堆疊起來即可。
第二階段,通過一些要素驅動數字虛擬人?,F在國際上有比較流行的三個要素可以驅動數字虛擬人:一類是視頻,類似短視頻,做一些視頻人物的動作,通過視頻驅動第一階段做出來的很像的數字虛擬人。另一類是“中之人”,這個概念來自日本,現在最貼切的展示方式就是穿動捕服的演員,就像大片拍攝中通過“中之人”驅動數字虛擬人。還有一類就是語音語義,英偉達數字人研究院就選定了語音語義這個要素作為驅動數字人的技術切入點,為什么選它呢?這三類中最容易獲得的就是語音語義,而且很方便,通過一段語音或者一段文字就可以驅動數字虛擬人。
英偉達在這里扮演的是什么角色呢?這里介紹剛剛更名的開源平臺——NVIDIA Riva,是通過算法優化的平臺,其中有一個功能模塊叫做Audio2Face,可以通過一段音頻驅動數字人面部表情的動捕,就像正常人說話一樣,實現口音口型和面部表情、細微動作。所以黃仁勛演講中,別看短短14秒,里面包含了很多技術,其中就有一段Audio2Face,所有的數字通過動捕方式采集好之后,模擬口形、動捕演員的驅動都會涉及到這些要素。
第三階段才是數字虛擬人真正達到應用級別產品化的階段,應該是在五到十年后
第三階段就比較升華,每個階段都需要兩到三年,我們認為。
到了第三階段,我們可以實現數字人和真實人類之間的溝通交互,也可以實現數字人和數字人之間的溝通交互,這個也叫做真實和虛擬世界的交互,其實也完美地契合了元宇宙的概念。
澎湃新聞:真正進入虛擬和真人之間的交互的第三階段需要具備哪些條件?
英偉達技術專家:第一階段其實已經很成熟了,已經有很多平臺可以做到。第二階段屬于初期,我們某些客戶合作伙伴都已經做到了初級階段,很多算法已經交付給了市場。大家可以看到很多語音播報員背后的邏輯就是第二階段的技術。我們認為這一階段過兩到三年就會進入成熟期。
再過兩到三年以后就會進入第三階段初始的發展期和萌芽期,五年左右的時間點是一個非常重要的時間點,那個時間段英偉達GPU平臺的算力,包括自己各種算法的迭代,到那個時候也會有非常大的改進和提高。當大家在生態系統當中做數字虛擬人平臺和創作者時候,這三五年一定會有非常大的訓練集驅動走到3.0時代。五年那個時間點才是進入3.0時代真正有可能看到,就是真正能夠用的真實和物理世界交互的數字人應用出現的時間點。
舉個非常有意思的例子,大家知道現在去銀行的網點,柜臺都超不過五十到一百次,銀行現在正在考慮把所有的網點變成數字虛擬人,通過AR技術替換現在人工窗口的營業員。這些應用在各行各業,所有的企業都已經看到了,這就是我們認為數字虛擬人市場需求這么強勁的原因,也是因為客戶和市場驅動我們挑戰新的技術。
澎湃新聞:剛才講到虛擬數字人的技術應用,比如銀行、政務和商務的場合,這里面有那些場景是你們看到可以率先落地的?
英偉達技術專家
:有很多職業,可以和大家分享一下英偉達已經做過的數字虛擬人案例。比如數字主持人,就像《飛向月球》第二季,我們重建了央視某紀錄片頻道的著名主持人。然后還有數字導購員、數字4S店銷售、數字導游,包括現在數字的窗口營業員。還有一類非常有意思,如果大家關注Instagram這些國外比較流行的社交媒體網上有數字明星。去年疫情最嚴重的時候,日本曾經做過一個調研,日本市場最受歡迎的一個明星居然是一個數字虛擬人,她在Twitter上的粉絲高達數百萬,所以營銷IP的公司相當于打造了一個數字模擬器。包括大家看到電影《雙子殺手》也是一種數字人的體驗形式,還有國內的數字王國“鄧麗君” “張國榮”的數字IP應用,我們看到了很多很多,就像雨后春筍一般出來。流媒體平臺上面也是越來越多。
澎湃新聞:Omniverse是英偉達推出的全球首個為元宇宙建立提供基礎的協作平臺,你們推出Omniverse的初衷和契機是什么?
英偉達技術專家:今年并不是Omniverse的元年,英偉達在2019年就提出了Omniverse,并且已經為這個平臺布局了很久。大家都知道Metaverse即元宇宙的概念,其核心技術要素包括AI、區塊鏈、VR/AR/MR等XR技術、可視化的渲染技術等。這些方面的技術在最近幾年處于集中爆發期,并且現在我們進入了5G時代,這為真實世界和數字虛擬世界的交互提供了足夠的帶寬以及交互的技術基礎。這些因素促進1992年提出的元宇宙概念如今成為了一個火熱的話題。英偉達對這些技術都有所涉及,所以在此契機下提出了英偉達所理解的元宇宙概念平臺——Omniverse。我個人認為它像是英偉達為創建元宇宙數字化虛擬空間的奇點,也可稱之為技術平臺底座,集合了英偉達過去二十多年在AI、HPC和圖形各方面的技術、算法、標準,又像是一個工具箱,大家在創造數字化虛擬空間時,需要螺絲就可以在這里拿一個螺絲,需要一個剪刀就拿一個剪刀。英偉達希望搭建一個技術平臺,服務藝術家、創造者以及一些C端、B端的用戶,以實現元宇宙。
澎湃新聞:Omniverse主要提供哪些產品和服務?面向的服務對象和行業是什么?
英偉達技術專家:Omniverse中有五大核心部件,包括Nucleus、Connect、Kit、RTX Render、Simulation,這些是我們的技術底座。Nucleus提供了云原生技術的底座,RTX Render最多可以在云上調用48個GPU來提供同步渲染機制,這解決了很多行業的痛點,例如,有很多客戶只能調用自己工作站中的GPU資源,技術管理仍然基于第三方的傳統工具,無法跟產品連接起來。Kit組件將英偉達的圖形計算和AI技術暴露給開發者,開發者可以利用KIT打造適合自己的工作流程。這些面向開發能力較強的用戶。針對終端用戶即開發能力較弱的用戶,英偉達也打造了一些服務,比如面向設計師的Create部件。還有針對AEC建筑行業的View、方便機器人仿真結構學習的Issac Sim,可以運用渲染效果實現可視化,以及即將推出的無人駕駛仿真平臺Drive Sim。這些就是Omniverse所提供的產品和服務,Create、View、Drive Sim、Issac Sim偏向于面向終端用戶的產品,而服務則包括五大核心中的Nucleus、Kit、RTX Render、Simulation 、Connect,其中Connect能夠把第三方DCC(Digital Create Content)工具通過USD方法整合到Omniverse平臺進行加速。
Omniverse分為to C端及to B端。針對C端消費者的Individual版本面向個人,全部免費提供給用戶,在官方網站、微信公眾號等渠道都公開了下載鏈接。To B端是將在今年秋季發布的Omniverse Enterprise,功能會更加完整、強大,是付費版本。
澎湃新聞:對于英偉達而言,未來希望在元宇宙當中處于什么位置,或者扮演怎樣的角色?
英偉達技術專家:英偉達的位置應該是提供基礎底層服務架構的。Omniverse是一個工具,通過這個工具讓各種各樣的ISV、開發者和用戶自己打造自己的內容。最近幾年非常流行的一個詞叫做UGC,User-generated Content,就是用戶產生內容。我們給用戶工具以后讓用戶自己根據各式各樣的創造性思維打造逼真的世界和高度還原的東西,英偉達就是處在底層提供技術底座和提供工具方面入手。就像之前的加州淘金熱,我們是提供基礎工具鏟子,當然這個技術鏟子門檻可能比較高,不像淘金那個時候相對來說技術比較原始,我認為是這樣一個位置。
澎湃新聞:現在要解決算力問題的話,全球現在算力可以達到怎樣的水平?未來實現元宇宙的算力大概是多大的?中間有多難或者多長的距離需要跨越?
英偉達技術專家:現在我們從事元宇宙是從一個小的宇宙,比如模擬一個屋子再到一個小的社區,或者是一個小的區域來說,慢慢地把所有人和事物連接進來,整體算力應該是很大的,第一步就是能夠調用多種類型的GPU加速這樣一個過程。我們回到Omniverse本身的架構,可以調用64個云上GPU同時渲染一個場景,但隨著后面技術的不斷更迭會有更多的GPU,成百上千或者上萬GPU同時加速一個元宇宙的場景,現在我們是調用64個GPU加速一個場景這樣一個階段。
澎湃新聞:中國也許多布局元宇宙的公司,你們如何看待元宇宙在中國市場的機會?
英偉達技術專家:實際上元宇宙不是某一家公司就全都能夠實現的,需要一個整體的、多家的平臺共同努力。這里有很多玩家,國際上就是Facebook、微軟、Roblox、英偉達,包括國內在做的騰訊全周期互聯網就是一個對等的平臺,這么多玩家在一起才能實現,國內有很多做數字孿生的、做數字資產庫的這些生態合作伙伴跟我們合作的也比較多,都在貢獻自己的一些力量,他們也期待借著這個概念平臺的興起會出現新的爆款產品。
借此機會也和大家分享一下某客戶發布的模擬加州大火燃燒蔓延趨勢,為什么英偉達理解的元宇宙和Omniverse和僅限于游戲世界的元宇宙不一樣,這里就有圖形學的概念。這些全是假的,就是模擬火勢燃燒,然后結合AI技術,當地的風向、濕度、樹木的分布圖,火焰真正燃燒起來的蔓延是怎樣的,這些視頻技術的模擬可以幫助消防管理負責人員進行快速決策,也是我們真正服務于現在各種各樣需求的一個很經典的案例。
來源:澎湃新聞
IT時代網(關注微信公眾號ITtime2000,定時推送,互動有福利驚喜)所有原創文章版權所有,未經授權,轉載必究。
創客100創投基金成立于2015年,直通硅谷,專注于TMT領域早期項目投資。LP均來自政府、互聯網IT、傳媒知名企業和個人。創客100創投基金對IT、通信、互聯網、IP等有著自己獨特眼光和豐富的資源。決策快、投資快是創客100基金最顯著的特點。
小何
小何
小何
小何