<pre id="co8k0"><cite id="co8k0"></cite></pre><strike id="co8k0"></strike>
  • <acronym id="co8k0"><cite id="co8k0"></cite></acronym>
  • <nav id="co8k0"></nav>
    <input id="co8k0"><em id="co8k0"></em></input>
  • 人工智能如何賦能音視頻技術?華為專家和復旦教授這樣說

    出品 | 搜狐科技

    作者 | 張雅婷

    1872年英國攝影師麥布里奇借助24臺相機,連續拍攝24張馬奔跑時的照片,創造出人類歷史上第一個視頻。5年后,發明家愛迪生在留聲機錄音實驗時,記錄了《瑪麗有只小羊羔》的歌詞,創造出歷史上第一條音頻。

    伴隨著技術更迭,音視頻如今已經成為文字、圖片之外最重要的信息傳播媒介,滲透進大家生活的方方面面,成為人們獲取及發布信息的重要方式。

    艾瑞咨詢指出,用戶創作音視頻成為移動互聯網的主導內容形態。其中,短視頻平均月活躍設備數甚至超過了10億,用戶使用時長占比近30%。

    我們已經處于音視頻媒體包圍的當下,音視頻技術也成為了不可或缺的社會基礎設施,在長短視頻、直播、在線會議等多種應用場景中發揮著重要作用。

    在更低時延、更清晰、更具沉浸感的目標之下,音視頻技術發展的趨勢是什么?遇到了哪些挑戰?搜狐科技《對話》欄目邀請到復旦大學教授、博士生導師姜育剛以及華為算法應用技術專家、開發部長Peter,一起交流音視頻技術最前沿的動態。

    姜育剛表示,人工智能在實時音視頻處理方面正發揮著重要作用,比如視頻編解碼、虛擬背景、視頻超分辨率等。

    以編碼為例,傳統的H.264、H.265等技術都是人工設計的方案。姜育剛表示,最近趨勢是基于深度學習的編碼方法。

    “跟傳統的方法相比,這是一種數據驅動的方法,這里面主要的難點是如何在編碼中嵌入視頻中的運動信息,最近一些利用編碼器-解碼器等比較新的網絡架構就實現了比傳統方法更好的編碼。”

    在Peter看來,當前音視頻領域非常顯著的技術趨勢是超高清技術的持續升級,3D空間音頻、HDR技術在移動終端上有了更好的應用。不過,由于手機終端屏幕大小有限制,用戶感受不到8K高清技術。“在8K高清技術的采集、制作、存儲、傳輸上,仍然需要技術進一步突破,成本降低,才能廣泛普及。”

    以下為訪談實錄:

    一、音視頻技術發展現狀及趨勢

    搜狐科技:音視頻技術實際上是音頻技術和視頻技術的一個統稱,能否講一講音頻技術與視頻技術之間的關系,以及在近年的發展趨勢?

    Peter:音頻和視頻技術分別有自己的產品形態,側重于與不同使用領域。在用戶視角,視頻技術會包含音頻技術,因此我們通常會把音視頻媒體技術放在一起研究。

    當前非常顯著的技術趨勢是超高清技術持續快速升級,3D空間音頻、HDR技術在移動終端上應用。中國超高清聯盟UWA也主導制定了中國自己的超高清CUVA標準,這也將進一步帶動更多的終端智能設備支持。

    搜狐科技:HMS Core在音視頻技術的布局主要集中在哪些方向,希望給開發者和用戶帶來什么?

    Peter:HMS Core圍繞音視頻媒體采集、編、播、傳、存開放了6個Kit,一方面是把華為終端硬件創新的高清相機、音視頻媒體編解碼能力開放給開發者,另一方面,我們也通過AI與音視頻媒體結合,開放了人臉遮擋、人像摳圖、AI智能著色、精彩鏡頭提取、人像動態虛影、AI配音、歌聲合成等技術能力。

    隨著移動終端的算力不斷增強,越來越多的專業級編輯能力、高端影院級視聽體驗不斷向終端遷移,我們希望在滿足用戶不斷增長的高清、高品質、沉浸感的視聽體驗需求,也逐漸賦予移動終端生產力工具屬性。

    搜狐科技:更高清晰度,是視頻行業永恒的追求,不過目前超高清視頻用戶占比仍較小。想請教兩位專家,這其中有哪些技術、應用難點是尚未解決的?

    姜育剛:超高清視頻分辨率非常高,幀率也非常高,會占掉很多的存儲空間,也對網絡傳輸帶來了新的挑戰。

    另外一方面,很多視頻網站需要對視頻進行分析,從而實現更好的推薦、檢索,如果要對高清視頻處理與分析,需要的計算資源則會更多。

    Peter:在手機終端上受限于終端屏幕大小限制,8K高清技術用戶感受不到,制約了用戶需求。在8K高清技術的采集、制作、存儲、傳輸上,仍然需要技術進一步突破,成本降低,才能廣泛普及。

    二、人工智能如何賦能音視頻技術

    搜狐科技:去年初,WebRTC也成為了W3C的正式標準,實時音視頻成為行業熱點。與此同時人工智能技術在自動駕駛、語音識別等領域都取得了巨大的成功,人工智能技術在實時音視頻處理中有何應用?

    姜育剛:首先是視頻的編解碼,最早的視頻編解碼像H.264、H.265等都是基于人工設計的一些方案,最近涌現了很多基于深度學習的編解碼方式,效果更好。

    第二是虛擬背景,大家線上開會時經常會使用虛擬背景功能,這背后主要是語義分割技術,通過將圖片中的前景分割出來,對背景圖片進行替換得以實現。靜態圖像的語義分割是比較簡單的,但是在實時的視頻會議中,人可能會動,與攝像頭的距離時遠時近,所以人物的邊緣如何分割準確是一大難點。

    第三是視頻超分辨率,基于深度學習的超分辨率技術,將比較模糊的視頻變清晰,這樣可以在帶寬有限的情況下,依然獲得高分辨率的視頻。

    搜狐科技:隨著視頻分辨率不斷提高,帶寬成本也越來越大,兩位老師能否分別從工業界和學界的角度,說一說基于人工智能的編碼與實時分析的作用以及發展情況。

    姜育剛:對編碼而言,傳統的H.264、H.265等技術都是人工設計的方案,最近的一些趨勢是利用深度學習得到高效的編碼方法。這里面主要的難點是如何在編碼中嵌入視頻中的運動信息,最近一些利用編碼器-解碼器等比較新的網絡架構就實現了比傳統方法更好的編碼。

    在實時視頻處理中部署深度網絡,最大的挑戰是如何減少深度網絡的計算成本。目前一個很重要的研究方向是模型壓縮,主要涉及的技術包括量化、剪枝、知識蒸餾等方式,目的就是將大網絡壓縮成一個緊湊的小網絡從而能夠實現快速高效的視頻分析。

    Peter:通過顯著性區域編解碼技術,在不影響用戶觀感的情況下大幅度壓縮視頻空間,這項技術部分已經成熟商用。在傳輸上采用低碼高清的超分、插幀技術也廣泛應用到視頻分發播放領域。當前H.266編碼技術已經取得進展,會逐步成熟商用。未來隨著H.266編解碼硬化芯片的增多,也就會有更多的內容采用H.266編碼技術。

    搜狐科技:除了在編碼領域,AI在視頻的內容分析等方面也發揮出重要的作用,比如動作識別、動作定位等等,這些算法有什么應用場景?

    姜育剛:動作識別的目標是識別出視頻中出現的動作類型;時序動作定位可以看作由兩個子任務組成,一個子任務是預測動作的起止時序區間,另一個子任務是預測動作的類別。

    最近比較熱門的一個方向是基于語言的動作定位,根據文本查詢從對應視頻中找到具體視頻片段。比如一段很長的監控視頻,我們想找到“穿紅衣服的跑步的小孩子”對應的視頻,這就是基于語言的動作定位。這樣的技術在視頻編輯、視頻搜索、安防監控等關鍵領域有著重要的作用。

    搜狐科技:在提高視頻分辨率方面,視頻超分算法發揮著非常大的作用。從業界來看,視頻超分算法的落地情況如何?存在什么挑戰?

    Peter:實時視頻超分算法需要非常大的算力支撐,當前華為在具有NPU的移動設備上已經支持了視頻超分技術,可以支持每秒30幀的2倍超分。另一方面,超分算法采用了AI技術,非常依賴訓練的數據集規模和多樣性,當前超分只能在已有數據集特定領域做到比較好,泛化到其他領域仍然存在挑戰。

    搜狐科技:SRCNN是深度學習用在超分辨率重建上的開山之作,近年來也有更多超分算法模型“面世”。視頻超分與視頻內容分析有何區別和聯系,它是否可以幫助實現更好的視頻內容分析?

    姜育剛:視頻超分與視頻增強、去噪等類似,是一種底層視覺任務,在一定程度上可視為一個可以幫助高層語義理解、識別等的預處理任務。因此,采用了合適的超分技術可以讓視頻的細節更為清晰,可以幫助更好的實現對視頻內容的高層語義分析。

    搜狐科技:未來,我們需要更具“沉浸式體驗”的人機交互。面向VR\AR設備的音視頻技術會面臨什么不一樣的需求和挑戰?

    姜育剛:在內容生成方面,AR/VR設備都是沉浸式的,會導致用戶疲勞。技術上需要考慮渲染出的場面亮度、對比度、內容、色彩是否合適,音量大小是否合適。

    在內容分析方面,當我們戴著AR/VR設備與周圍環境進行交互時,視角會產生很大的變化,這給視頻的實時處理和分析帶來了很大的挑戰。

    我們傳統的視頻分析與理解基本上都是面向第三視角的互聯網視頻,而元宇宙中視角跟傳統的視頻不太一樣。比如說第三視角人在做飯的視頻中,手不會成為視頻的主體,但帶著穿戴設備跟周圍的環境進行交互的時候,手會占著畫面的主體,這樣視角的變化會導致現有的深度學習模型性能大幅度降低。

    總結而言,姜育剛和劉成華兩位嘉賓都認為,更高清晰度是音視頻領域永恒的追求。但由于超高清視頻分辨率和幀率非常高,對存儲、網絡傳輸都帶來了新的挑戰。

    所以,超高清視頻用戶占比仍然相對較小,8K高清技術的采集、制作、存儲、傳輸仍然需要技術進一步突破。

    在音視頻技術的迭代演進上,與人工智能的結合是一大發展趨勢。當前,通過視頻超分算法提高視頻分辨率,基于人工智能進行編碼與實時分析,都成為了學界和工業界關注的熱點。

    來源:搜狐科技

    IT時代網(關注微信公眾號ITtime2000,定時推送,互動有福利驚喜)所有原創文章版權所有,未經授權,轉載必究。
    創客100創投基金成立于2015年,直通硅谷,專注于TMT領域早期項目投資。LP均來自政府、互聯網IT、傳媒知名企業和個人。創客100創投基金對IT、通信、互聯網、IP等有著自己獨特眼光和豐富的資源。決策快、投資快是創客100基金最顯著的特點。

    相關文章
    人工智能如何賦能音視頻技術?華為專家和復旦教授這樣說

    精彩評論