環(huán)顧現(xiàn)有的帶語(yǔ)音識(shí)別能力的系統(tǒng),無(wú)論是蘋果的 Siri、亞馬遜的 Alexa 還是微軟的 Cortana,用戶在使用起來(lái)多少還是經(jīng)常想砸手機(jī),因?yàn)樗鼈兘?jīng)常擅自 自動(dòng)糾正 用戶話,可見(jiàn)要簡(jiǎn)單地做個(gè)好的 聽(tīng)寫員 實(shí)在是不容易。
然而,10月17日的時(shí)候,微軟發(fā)布了一份名為《達(dá)到與人類具備同等交流對(duì)話水平》(Achieving Human Parity in Conversational Speech)的論文。該論文宣稱,他們?cè)谡Z(yǔ)音識(shí)別上的技術(shù)已經(jīng)高于專業(yè)的人工速記員了。
為了能夠進(jìn)行比較,微軟的研究人員找來(lái)了一段它們具有正確腳本的音頻片段,并請(qǐng)來(lái)了一家第三方公司來(lái)進(jìn)行語(yǔ)音轉(zhuǎn)文本處理。這個(gè)第三方公司的操作方式分為兩部分:一名謄寫員邊聽(tīng)音頻邊將內(nèi)容打出來(lái),而另一名則一邊聽(tīng)音頻一邊修正第一人提供的文本。隨后,根據(jù)和標(biāo)準(zhǔn)的正確文本對(duì)比,第三方公司的錯(cuò)誤率分別是 5.9% 和 11.3%。
而微軟的識(shí)別系統(tǒng),在經(jīng)過(guò) 2000 小時(shí)對(duì)人類交談素材的學(xué)習(xí)后,針對(duì)同一份音頻材料進(jìn)行了語(yǔ)音識(shí)別,錯(cuò)誤率分別為 5.9% 和 11.1%,數(shù)量上來(lái)看,比人類對(duì)照組少了十來(lái)個(gè)錯(cuò)誤。
雖然這次測(cè)試的成績(jī)不錯(cuò),但畢竟處理的音頻材料與真實(shí)生活場(chǎng)景的貼近性還是比較遙遠(yuǎn)。而微軟的研究人員也表明,下一步會(huì)將該系統(tǒng)放在帶有部分背景噪音的場(chǎng)景中,例如在派對(duì)或是在高速公路上行駛的汽車上。同時(shí),人類對(duì)照組的可參考性也還需要考究。但無(wú)論如何,希望這次的針對(duì)語(yǔ)音識(shí)別的研究突破不會(huì)成為那種被報(bào)道一次之后就消失的信息。
文章編輯:CobiNet(寧波)
本公司專注于電訊配件,銅纜綜合布線系列領(lǐng)域產(chǎn)品研發(fā)生產(chǎn)超五類,六類,七類屏蔽網(wǎng)線/屏蔽模塊及相關(guān)模塊配件, 我們是萬(wàn)兆屏蔽模塊,10G屏蔽模塊,屏蔽線生產(chǎn)廠家。
歡迎來(lái)電咨詢0574 88168918,郵箱sales@cobinet.cn,網(wǎng)址www.10166888.com
?2016-2019寧波科博通信技術(shù)有限公司版權(quán)所有浙ICP備16026074號(hào)