數(shù)字虛擬人新的商業(yè)機(jī)遇
不久的將來,現(xiàn)實(shí)世界中的每一個(gè)地方和事物 —— 每一條街道、每一個(gè)燈柱、每一棟建筑物和每一個(gè)房間 —— 都會在鏡像世界中擁有它的全尺寸“數(shù)字孿生兄弟”。
——?jiǎng)P文·凱利
虛擬數(shù)字人項(xiàng)目就是為了拓展高保真數(shù)字人的技術(shù)邊界,將電影技術(shù)應(yīng)用于游戲開發(fā)而尋求新的商業(yè)機(jī)遇。主要應(yīng)用的技術(shù)包括:照相建模、實(shí)時(shí)動(dòng)捕、表情捕捉。
在電影《西蒙妮》中,人們曾描繪過AI虛擬主播的理想形態(tài):她是一個(gè)由計(jì)算機(jī)虛擬合成的、高度逼真的三維動(dòng)畫人物。她美得令人無法拒絕,一言一行都與真人一樣,并可以完成一切表演、播報(bào),且不會有任何緋聞。
邁克斯·泰格在《生命LIFE 3.0》一書中說,生命3.0是一個(gè)由人工智能重塑的時(shí)代。在這個(gè)時(shí)代,我們可以設(shè)計(jì)自己的硬件和軟件。
所謂的“像真人”,不外乎是運(yùn)用“AI合成”技術(shù)。“虛擬主播”通過提取真人主播新聞播報(bào)視頻中的聲音、唇形、表情動(dòng)作等特征,運(yùn)用語音、唇形、表情合成以及深度學(xué)習(xí)等技術(shù)聯(lián)合建模訓(xùn)練而成。
該項(xiàng)技術(shù)要能夠?qū)⑺斎氲闹杏⑽奈谋咀詣?dòng)生成相應(yīng)內(nèi)容的視頻,并確保視頻中音頻和表情、唇動(dòng)保持自然一致,展現(xiàn)與真人主播無異的信息傳達(dá)效果。但在此之前,出現(xiàn)在大眾媒體上的虛擬主播,多半只有聲音,或者匹配一個(gè)量身定制的虛擬形象,比如微軟小冰在東方衛(wèi)視擔(dān)任天氣預(yù)報(bào)員就是如此。
要實(shí)現(xiàn)這樣的效果,兩大要求缺一不可。其一是高逼真度。要能夠自動(dòng)生成語音、表情、唇動(dòng)等信息完全一致的自然視頻,并已達(dá)到商用級別。其二是低成本的個(gè)性化定制。小數(shù)據(jù)的學(xué)習(xí)模型,使用少量用戶真實(shí)音視頻數(shù)據(jù),快速遷移生成虛擬的分身模型,快速定制出高逼真度的分身模型。最后,使用時(shí)輸入一段文本,即可生成與真人無異的同步音視頻。
除此之外,語音合成引擎和圖像生成引擎也是重要的兩點(diǎn)。在語音合成引擎中,基于用戶少量音頻數(shù)據(jù),使用語音合成技術(shù),快速學(xué)習(xí)用戶音色、韻律、情感等多維度特征,建立輸入文本與輸出音頻信息的關(guān)聯(lián)。
圖像生成引擎,則是使用人臉識別、三維人臉重建、表情建模等技術(shù)對人臉表情動(dòng)作進(jìn)行特征學(xué)習(xí)和建模,建立輸入文本、輸出音頻與輸出視覺信息的關(guān)聯(lián)映射,生成輸出分身視頻。
最后,兩大引擎協(xié)作打磨,最終才能實(shí)現(xiàn)“AI合成主播”,能夠逼真模擬人類說話的聲音、嘴唇動(dòng)作和表情,并將三者自然匹配,做到惟妙惟肖,讓機(jī)器以更逼真自然的形象呈現(xiàn)在用戶面前。
北京歐雷成立于2007年,是國內(nèi)專業(yè)VR虛擬現(xiàn)實(shí)和影視動(dòng)漫制作整體解決方案的供應(yīng)商。公司致力于國內(nèi)VR、影視、動(dòng)漫、游戲、虛擬仿真和虛擬現(xiàn)實(shí)等產(chǎn)業(yè)軟硬件產(chǎn)品的研發(fā)、生產(chǎn)和服務(wù),目前已和上千家院校企業(yè)建立了良好的合作關(guān)系,受到客戶的一致好評和信賴。
推荐
-
-
QQ空间
-
新浪微博
-
人人网
-
豆瓣