神武八荒一颗小说,遮天,豆豆小说阅读网

數(shù)字虛擬人新的商業(yè)機(jī)遇

不久的將來，現(xiàn)實(shí)世界中的每一個(gè)地方和事物 —— 每一條街道、每一個(gè)燈柱、每一棟建筑物和每一個(gè)房間 —— 都會在鏡像世界中擁有它的全尺寸“數(shù)字孿生兄弟”。
——?jiǎng)P文·凱利

虛擬數(shù)字人項(xiàng)目就是為了拓展高保真數(shù)字人的技術(shù)邊界，將電影技術(shù)應(yīng)用于游戲開發(fā)而尋求新的商業(yè)機(jī)遇。主要應(yīng)用的技術(shù)包括：照相建模、實(shí)時(shí)動(dòng)捕、表情捕捉。

在電影《西蒙妮》中，人們曾描繪過AI虛擬主播的理想形態(tài)：她是一個(gè)由計(jì)算機(jī)虛擬合成的、高度逼真的三維動(dòng)畫人物。她美得令人無法拒絕，一言一行都與真人一樣，并可以完成一切表演、播報(bào)，且不會有任何緋聞。

邁克斯·泰格在《生命LIFE 3.0》一書中說，生命3.0是一個(gè)由人工智能重塑的時(shí)代。在這個(gè)時(shí)代，我們可以設(shè)計(jì)自己的硬件和軟件。

所謂的“像真人”，不外乎是運(yùn)用“AI合成”技術(shù)。“虛擬主播”通過提取真人主播新聞播報(bào)視頻中的聲音、唇形、表情動(dòng)作等特征，運(yùn)用語音、唇形、表情合成以及深度學(xué)習(xí)等技術(shù)聯(lián)合建模訓(xùn)練而成。

該項(xiàng)技術(shù)要能夠?qū)⑺斎氲闹杏⑽奈谋咀詣?dòng)生成相應(yīng)內(nèi)容的視頻，并確保視頻中音頻和表情、唇動(dòng)保持自然一致，展現(xiàn)與真人主播無異的信息傳達(dá)效果。但在此之前，出現(xiàn)在大眾媒體上的虛擬主播，多半只有聲音，或者匹配一個(gè)量身定制的虛擬形象，比如微軟小冰在東方衛(wèi)視擔(dān)任天氣預(yù)報(bào)員就是如此。
要實(shí)現(xiàn)這樣的效果，兩大要求缺一不可。其一是高逼真度。要能夠自動(dòng)生成語音、表情、唇動(dòng)等信息完全一致的自然視頻，并已達(dá)到商用級別。其二是低成本的個(gè)性化定制。小數(shù)據(jù)的學(xué)習(xí)模型，使用少量用戶真實(shí)音視頻數(shù)據(jù)，快速遷移生成虛擬的分身模型，快速定制出高逼真度的分身模型。最后，使用時(shí)輸入一段文本，即可生成與真人無異的同步音視頻。

除此之外，語音合成引擎和圖像生成引擎也是重要的兩點(diǎn)。在語音合成引擎中，基于用戶少量音頻數(shù)據(jù)，使用語音合成技術(shù)，快速學(xué)習(xí)用戶音色、韻律、情感等多維度特征，建立輸入文本與輸出音頻信息的關(guān)聯(lián)。

圖像生成引擎，則是使用人臉識別、三維人臉重建、表情建模等技術(shù)對人臉表情動(dòng)作進(jìn)行特征學(xué)習(xí)和建模，建立輸入文本、輸出音頻與輸出視覺信息的關(guān)聯(lián)映射，生成輸出分身視頻。

最后，兩大引擎協(xié)作打磨，最終才能實(shí)現(xiàn)“AI合成主播”，能夠逼真模擬人類說話的聲音、嘴唇動(dòng)作和表情，并將三者自然匹配，做到惟妙惟肖，讓機(jī)器以更逼真自然的形象呈現(xiàn)在用戶面前。

北京歐雷成立于2007年，是國內(nèi)專業(yè)VR虛擬現(xiàn)實(shí)和影視動(dòng)漫制作整體解決方案的供應(yīng)商。公司致力于國內(nèi)VR、影視、動(dòng)漫、游戲、虛擬仿真和虛擬現(xiàn)實(shí)等產(chǎn)業(yè)軟硬件產(chǎn)品的研發(fā)、生產(chǎn)和服務(wù)，目前已和上千家院校企業(yè)建立了良好的合作關(guān)系，受到客戶的一致好評和信賴。

數(shù)字虛擬人新的商業(yè)機(jī)遇

推荐