新聞動(dòng)態(tài) 》這是兩會(huì)上最高科技的主播!不會(huì)累、不會(huì)失誤,逼真得不像AI
這是兩會(huì)上最高科技的主播!不會(huì)累、不會(huì)失誤,逼真得不像AI
來(lái)源:量子位 2020-06-15 17:03:14
原標(biāo)題:這是兩會(huì)上最高科技的主播!不會(huì)累、不會(huì)失誤,逼真得不像AI 金磊 發(fā)自 凹非寺
什么樣的主播水平,可以擔(dān)當(dāng)新華社「兩會(huì)」新聞播報(bào)重任?
這個(gè)AI合成主播就可以——坐姿、站姿零失誤播報(bào)是基操,而且還是3D,360度取景也hold得住。
她叫“新小微”,是全球第一個(gè) 3D+AI 合成主播,在兩會(huì)召開(kāi)之際上線(xiàn),為全國(guó)觀(guān)眾帶來(lái)了最新的兩會(huì)新聞資訊報(bào)道。
話(huà)不多說(shuō),先來(lái)看下她的業(yè)務(wù)能力。
舉止端莊,神情自然,近距離鏡頭前大方得體。

360°多角度取景,無(wú)死角完美呈現(xiàn)。

走路進(jìn)場(chǎng),站姿報(bào)道輕松拿下。

這就是搜狗分身最新的技術(shù)進(jìn)展——基于AI算法實(shí)現(xiàn)實(shí)時(shí)驅(qū)動(dòng),打造高逼真、高靈活、高可控的3D AI合成主播。
我們先近距離觀(guān)察一下新小微的細(xì)節(jié)。

可以看到,在超近鏡頭下,新小微的發(fā)絲、睫毛,甚至是毛孔都是清晰可見(jiàn)。
如此“高清”效果,又是如何打造的呢?
首先,是基于真人原型采集海量數(shù)據(jù)。
新小微的真人原型,是新華社記者趙琬微。
趙琬微戴著數(shù)據(jù)采集頭盔,幾百個(gè)攝像頭對(duì)其身體各個(gè)部位,360度全方位“打點(diǎn)”掃描。

這樣做的目的,是采集每一處細(xì)節(jié)信息,并對(duì)其多種形態(tài)的表情和動(dòng)作,進(jìn)行細(xì)致入微地捕捉記錄。
采集完數(shù)據(jù)過(guò)后,便是生成高逼真度的3D 數(shù)字人模型。
這個(gè)過(guò)程中,采用了行業(yè)領(lǐng)先的掃描還原算法,以及面部肌肉驅(qū)動(dòng)、表情肢體捕捉等技術(shù)。
最后,通過(guò)搜狗分身的端到端多模態(tài)生成算法,對(duì)3D數(shù)字人模型進(jìn)行實(shí)時(shí)文本驅(qū)動(dòng),也就是說(shuō),只要給到一個(gè)文本,就能輸出一個(gè)視頻或者視頻流。

并確保在此基礎(chǔ)之上,渲染后的面部表情唇動(dòng)、肢體動(dòng)作和語(yǔ)言表達(dá)能力,能夠?qū)崿F(xiàn)高度契合。
“新小微”的誕生,或許會(huì)讓你聯(lián)想到我們?cè)谟螒?、影視中?jīng)??吹降?D數(shù)字人。

△《爵跡》中的角色
然而,“新小微”和這些3D數(shù)字人存在兩大方面的區(qū)別。
首先,3D模型的制作技術(shù)不同,帶來(lái)的逼真效果不同。
很多做寫(xiě)實(shí)類(lèi)型的3D模型,都是采用blendshapp或骨骼動(dòng)畫(huà)去完成,做出來(lái)的面部表情和身體動(dòng)作就不是特別逼真。
而搜狗采用的是全球最領(lǐng)先的肌肉模型來(lái)完成3D建模,所以每一個(gè)肌肉點(diǎn)的運(yùn)動(dòng)都會(huì)連帶著很多面部臉譜協(xié)同運(yùn)動(dòng)。
從面部表情到肢體動(dòng)作的細(xì)節(jié)程度,達(dá)到了不亞于,甚至?xí)哂谝恍┯耙曌髌芳坝螒騈PC的寫(xiě)實(shí)度。

在高清特寫(xiě)鏡頭下,3D AI合成主播的皮膚材質(zhì)、毛孔、牙齒、嘴唇、眼睛、頭發(fā)達(dá)到高逼真程度。
并且在AI合成主播講話(huà)的過(guò)程中,語(yǔ)音和她的唇動(dòng)細(xì)節(jié)之間的配合度,以及她的面部肌肉運(yùn)動(dòng),整體看起來(lái)實(shí)現(xiàn)了很高的自然度。
同時(shí),在講話(huà)過(guò)程中,3D AI合成主播的頭動(dòng)、肩膀、眼神、眨眼等等都非常自然。

其次,是3D數(shù)字人驅(qū)動(dòng)方式、成本、效率不同,這一點(diǎn)格外重要。
3D AI合成主播靠AI算法實(shí)時(shí)驅(qū)動(dòng),輸入一個(gè)文本就能輸出一個(gè)視頻或者視頻流。
并且其效率極高——若是要生成一個(gè)1分鐘的視頻,輸入文本后,生成只需要1分鐘,可以說(shuō),幾乎達(dá)到了實(shí)時(shí)生成的效果。
反觀(guān)游戲行業(yè)及電影行業(yè),大多是靠人工做驅(qū)動(dòng),才能實(shí)現(xiàn)一個(gè)高寫(xiě)實(shí)的3D模型。這就導(dǎo)致需要投入大量的人力、財(cái)力成本。
例如,掃描一個(gè)人物,再投入大量的人工采集他講的每一個(gè)字、每一個(gè)發(fā)音、每一個(gè)動(dòng)作。而后靠美術(shù)師自己勾畫(huà)出來(lái),一點(diǎn)一點(diǎn)地提升寫(xiě)實(shí)度。
以這種制作過(guò)程,來(lái)完成一個(gè)小時(shí)的3D寫(xiě)實(shí)度視頻,大約需要花費(fèi)幾千萬(wàn)人民幣。
再者,如現(xiàn)在市面上一些比較火的卡通效果,如洛天依,大多都是通過(guò)真人采集,沒(méi)有做到真正意義上的AI驅(qū)動(dòng)。
業(yè)內(nèi)類(lèi)似的3D數(shù)字人,還有像今年CES中,三星的NEON.Life項(xiàng)目。
雖然三星的這項(xiàng)技術(shù)在面部細(xì)節(jié)還原方面達(dá)到了高逼真度,但是其在整體面部、肢體的協(xié)調(diào)性等方面還是具有一定的缺陷。

可以看到,三星NEON.Life項(xiàng)目中的數(shù)字人,在說(shuō)話(huà)的過(guò)程中,只有面部肌肉在動(dòng),而身體是一直保持一個(gè)動(dòng)作不變。
而在剛才的展示中,“新小微”從進(jìn)場(chǎng)到站姿播報(bào),表情、唇動(dòng)、語(yǔ)言、肢體動(dòng)作,都是一氣呵成、自然協(xié)調(diào)。
再來(lái)看一個(gè)細(xì)節(jié)。

這個(gè)3D人在完成扭頭動(dòng)作時(shí),由于脖子、肩膀不能完成“聯(lián)動(dòng)”,所以效果上會(huì)比較“詭異”。
而在游戲、影視,甚至是同行3D數(shù)字人中存在的缺陷,搜狗通過(guò)開(kāi)創(chuàng)性的AI技術(shù),將其逐一攻克。
說(shuō)搜狗是AI合成主播的開(kāi)創(chuàng)者,一點(diǎn)也不足為過(guò)。
其實(shí),早在2018年開(kāi)始,便采用搜狗分身技術(shù),聯(lián)合新華社發(fā)布全球首個(gè)AI合成主播。

真人?AI?傻傻分不清。
但需要強(qiáng)調(diào)的一點(diǎn)是,搜狗的3D AI合成主播,并不是基于此前2D合成主播的升級(jí)、迭代。
而是兩條賽道并行走。
2D的AI合成主播技術(shù)已經(jīng)在許多場(chǎng)景中落地,例如新聞主播“雅妮”、“AI虛擬法官”,以及虛擬審核客服等等。
而隨著數(shù)字人這一概念的興起,搜狗基于已有的AI技術(shù),與3D技術(shù)相結(jié)合,便推出了此次的3D AI合成主播。
二者是處于“搜狗分身”體系下的并行發(fā)展路線(xiàn),正如在量子位采訪(fǎng)過(guò)程中,搜狗AI交互技術(shù)部總經(jīng)理陳偉表示:
2D的寫(xiě)實(shí)度比3D略高一些,但是3D的靈活性更高一點(diǎn)。 基于路線(xiàn)探討,我們還是區(qū)分了2D和3D,同時(shí)在底層算法上也做了充分的打通。
從2D的AI分身,到現(xiàn)在3D的進(jìn)化,背后不僅是技術(shù)、產(chǎn)品在場(chǎng)景落地上的不斷探索和精益求精。
也是搜狗在其AI戰(zhàn)略執(zhí)行線(xiàn)上的不斷推進(jìn)。
眾所周知,自2016年以來(lái),搜狗就確定了以語(yǔ)言為核心的自然交互+知識(shí)計(jì)算路線(xiàn),而AI分身類(lèi)產(chǎn)品,核心發(fā)展目標(biāo)就是打造像人一樣的自然交互,并且擁有強(qiáng)大的知識(shí)計(jì)算能力。
2D和3D的AI合成主播,正在從“表達(dá)式”向“交互式”發(fā)展,這背后要基于強(qiáng)大的知識(shí)理解和計(jì)算能力。
這也是全球目前及下一階段最前沿的“數(shù)字人”的核心技術(shù)競(jìng)爭(zhēng)力所在。
相比三星在CES上的Demo展出,搜狗已將AI合成主播實(shí)現(xiàn)了重要場(chǎng)合、重要崗位和重要任務(wù)場(chǎng)景上的商用。
這既是產(chǎn)品成熟度的自信,也是背后的技術(shù)自信。
或許要不了多久,真正的“數(shù)字人”,將不再局限于數(shù)字世界。
你期待嗎?
一THE END一
免責(zé)聲明:本文來(lái)自互聯(lián)網(wǎng)新聞客戶(hù)端自媒體,不代表本網(wǎng)的觀(guān)點(diǎn)和立場(chǎng)。
相關(guān)新聞
5月30日,華中師范大學(xué)打破學(xué)科壁壘,正式組建成立人工智能教育學(xué)部。華中師范大學(xué)副校長(zhǎng)夏立...
教育部印發(fā)通知,公布2019年度普通高等學(xué)校本科專(zhuān)業(yè)備案和審批結(jié)果,180所高校新增人工智能專(zhuān)...
借用AI領(lǐng)域知名的愛(ài)可可老師評(píng)價(jià):這是圖像檢測(cè)、追蹤、合成技術(shù)最佳應(yīng)用。
所以,來(lái)看看L...
最初面對(duì)新冠肺炎疫情時(shí),科大訊飛高級(jí)副總裁趙志偉坦言,自己難免有些沮喪和焦慮。主要是擔(dān)...
人工智能迎來(lái)新基建“新盤(pán)子”企業(yè)要琢磨怎么吃“蛋糕”
還在記得那個(gè)給明星換臉的Deepfake嗎?這次新冠疫情,讓它又派上了新用場(chǎng)。
既然Deepfake...
用AI來(lái)“傳宗接代”。
最近,便有團(tuán)隊(duì)利用英偉達(dá)的StyleGAN,為已經(jīng)逝世的傳奇漫畫(huà)家——手冢...
在一款電腦游戲中,你可以和全球玩家一同參與設(shè)計(jì)對(duì)抗新冠病毒藥物的最重要部分。這并不是開(kāi)...