9月13日-9月16日,以“奇市西湖”為主題的2018淘寶造物節(jié)正式亮相杭州。作為近年來最盛大、最潮流的線下集市,造物節(jié)不僅吸引了蔡徐坤、周筆暢、好妹妹樂隊等璀璨星光,也匯聚了代表創(chuàng)造力各種奇葩市集與店鋪。天貓精靈則把爆款智能音箱里的AI體驗落地為線下“奇聲實(shí)驗室”,成為會場中最引人注目的一個互動體驗區(qū)。
三大體驗區(qū),締造聲音“異”世界
[圖為“聽聲上屏”互動區(qū)]
天貓精靈“奇聲實(shí)驗室”在淘寶造物節(jié)現(xiàn)場設(shè)置了三個互動版塊,營造出一個沉浸式的新型語音交互體驗。
首先是捕捉聲音的“聽聲上屏”,在觀眾進(jìn)入真正的聲音世界時,不妨先在外面打個卡,對著屏幕來一段,秀段子手技能或者秀恩愛皆可。走進(jìn)“奇聲實(shí)驗室”,觀眾將見證更懂你的科技魔法——聲音情緒墻。當(dāng)體驗者對著天貓精靈說話時,他能通過語音識別技術(shù),解密你聲音里的情緒秘密,簡直就是現(xiàn)代版的“魔鏡”。
[圖為“聲音情緒墻”互動區(qū)]
隨著探索的深入,觀眾將看到“聞聲識人”技術(shù)的完美呈現(xiàn)——聲紋空間。當(dāng)你對著天貓精靈喊出“天貓精靈,芝麻開門”時,它將根據(jù)體驗者的聲音來識別你的年齡性別,通過視覺光影和音樂的交織為用戶打造一個獨(dú)一無二的沉浸式空間。
聲紋識別,捕捉聲音的DNA
聲紋識別技術(shù)屬于生物識別技術(shù)的一種,和指紋識別、虹膜識別等生物識別技術(shù)類似,該技術(shù)可通過聲音來判斷說話人的身份。
每個人聲音都具有個體差異性,正因如此我們才可以迅速判斷長坂坡上一聲吼的是張飛,大觀園中朗朗笑聲的是王熙鳳。但和人識別聲音的方式不同,天貓精靈在進(jìn)行聲紋識別時,包括了收集語音、噪聲抑制及有效語音檢測(VAD)、特征提取、聲音建模以及識別匹配等五個步驟。通俗地理解的話,那就是聲紋注冊(用戶聲音信息及聲音特征被充分收集)和聲紋測試(將用戶的聲音通過特定的算法進(jìn)行識別認(rèn)證)兩個階段。
[聲紋識別技術(shù)圖示]
雖然步驟并不復(fù)雜,但在每個步驟中均存在著技術(shù)難點(diǎn),例如怎樣在遠(yuǎn)場交互中獲得較多的語音信息建模、在開放嘈雜的環(huán)境下如何保證音箱能捕捉并識別你的聲音等等。用戶聲音識別的注冊時間一般在60s以上,但讓人對著音箱說一分鐘時間它才能知道你是誰并和你進(jìn)行交互,在實(shí)際應(yīng)用中,這顯然不現(xiàn)實(shí)。
為解決上述難點(diǎn),天貓精靈采用了最先進(jìn)的CLDNN+CTC模型。CLDNN優(yōu)勢在于它能很好地模擬人耳感知聲音的方式,并可以消除同一人在不同場景發(fā)音時對于聲音特征的干擾,從而幫助音箱更準(zhǔn)確地識別每個人不同的聲音特征。CTC模型的先進(jìn)性在于能使音箱更快速地聽懂你說的每個詞和句子,精簡訓(xùn)練音箱理解人的詞匯、語義的過程,使聲音的建模和識別匹配更精準(zhǔn)、高效。
[圖為奇聲實(shí)驗室聲紋空間]
此外,天貓精靈還采用動態(tài)判決策略等技術(shù)手段,使得聲紋識別技術(shù)識別率高達(dá)99%,從而讓天貓精靈“聞聲識人”技術(shù)得以完美應(yīng)用,同時,天貓精靈也是全球首個達(dá)到商用級聲紋認(rèn)證支付的智能音箱。
天貓精靈“奇聲實(shí)驗室”所打造的三個體驗區(qū),讓普通觀眾看到技術(shù)創(chuàng)新對于人本質(zhì)需求的理解與關(guān)照,它重新展現(xiàn)了聲音交互的意義,即聲音傳遞著人的內(nèi)心(聽聲上屏)、聲音表達(dá)著不同的情緒(聲音情緒墻)、聲音代表著每個人存在在世間的獨(dú)一無二的特質(zhì)(聲紋空間)。
[圖為奇聲實(shí)驗室內(nèi)館]
正如人工智能實(shí)驗室總經(jīng)理淺雪在此前接受采訪時所言,“在人機(jī)交互中,人通過語言方式控制家里所有東西的話,人才是中心,而不是設(shè)備”。天貓精靈“聞聲識人”技術(shù)的突破價值也正在于此。
在智能音箱市場日益激烈的當(dāng)下,天貓精靈在前沿技術(shù)上的持續(xù)探索、創(chuàng)新與落地轉(zhuǎn)化,也讓它從眾多同質(zhì)化的產(chǎn)品中脫穎而出,同時也讓普通用戶對人工智能的未來有了更多想象空間。