語音識別是一門交叉學(xué)科,也被稱為自動語音識別。其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認(rèn)不同,后者嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。
2月2日,人民網(wǎng)輿情數(shù)據(jù)中心與搜狗知音聯(lián)合發(fā)布了《智能語音大數(shù)據(jù)分析報告》,報告認(rèn)為社會已飛速進入智能語音輸入時代,并深刻改變了網(wǎng)民的上網(wǎng)習(xí)慣及人們的社會生活。以搜狗知音為代表的智能語音技術(shù),準(zhǔn)確率達97%以上,并已經(jīng)在互聯(lián)網(wǎng)、教育醫(yī)療、車載軟件、智能家居等領(lǐng)域廣泛應(yīng)用,實現(xiàn)了從概念、技術(shù)到商業(yè)產(chǎn)品、功能應(yīng)用的跨越。其智能性、快速性、無需動手性不但能滿足用戶多種復(fù)雜需求,也打破了中外語言、地區(qū)方言差異的壁壘,實現(xiàn)了無障礙交流溝通。
語音識別是一門交叉學(xué)科,也被稱為自動語音識別。其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認(rèn)不同,后者嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。
語音識別技術(shù)在國際的發(fā)展
早在三四十年前,美國的一些大學(xué)和實驗室就開始了語音識別技術(shù)的研究,50年代的AT T Bell實驗室研發(fā)的Audry系統(tǒng)第一個實現(xiàn)了可識別十個英文數(shù)字。60和70年代,提出了線性預(yù)測分析技術(shù)(LP)等相關(guān)理論并深入研究,創(chuàng)造出可以實現(xiàn)特定人孤立語音識別系統(tǒng);80年代和90年代是語音識別技術(shù)應(yīng)用研究方向的**,HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)的成功應(yīng)用,使得語音識別系統(tǒng)的性能比以往更優(yōu)異;伴隨著多媒體時代的來臨,微軟,Apple等著名公司都研發(fā)出相當(dāng)成功的商業(yè)應(yīng)用語音識別系統(tǒng),比如,Apple的Siri系統(tǒng),微軟的Phone Query(電話語音識別)引擎等。
語音識別技術(shù)在國內(nèi)的發(fā)展
我國的語音識別研究工作雖然起步較晚,但由于國家的重視,研究工作進展順利,相關(guān)研究緊跟國際水平。由于中國有不可忽視的龐大市場,國外對中國的語音識別技術(shù)也非常重視,漢語語音語義的特殊性也使得中文語音識別技術(shù)的研究更具有挑戰(zhàn)。但是,國內(nèi)研究機構(gòu)在進行理論研究的同時,應(yīng)注重語音識別系統(tǒng)在商業(yè)中的應(yīng)用,加快從實驗室演示系統(tǒng)到商品的轉(zhuǎn)化。
二十世紀(jì)末,語音識別系統(tǒng)已經(jīng)在電腦游戲和玩具,不同樂器的控制,數(shù)據(jù)采集和聽寫等方面發(fā)現(xiàn)了廣泛的應(yīng)用。而在近二十年,由于人工智能和機器學(xué)習(xí)迅猛發(fā)展,語音識別技術(shù)取得顯著進步,語音控制也變得更為實用,開始從實驗室走向市場。
《互聯(lián)網(wǎng)趨勢》報告中曾談及語音將是人機交互的新范式,語音技術(shù)將解放人類雙手和眼睛,用戶以較低的成本實現(xiàn)隨時訪問。人們預(yù)計,未來10年內(nèi),語音識別技術(shù)將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。未來與智能家居、可穿戴設(shè)備、機器人等交互模式,語音將是最佳人機交互模式。
近二十年,語音識別技術(shù)取得顯著進步,但識別的準(zhǔn)確性問題一直阻礙著智能語音的進一步發(fā)展。目前在實際應(yīng)用中,我們看見語音識別多是在智能家居領(lǐng)域,比如智能家電或智能音箱。此時,我們就需要考慮一個問題了,當(dāng)多個家庭成員同時講話時,智能家電或智能音箱該執(zhí)行誰的命令呢?它們又如何能在眾多聲音中找出自己主人的命令?這些都是當(dāng)前語音識別所需要解決的問題,畢竟我們通常所說的語音識別不僅僅只是單純的對語音內(nèi)容進行識別。
隨著準(zhǔn)確性的提升,語音識別應(yīng)用范圍將不斷拓寬,語音交互也逐漸成為可能。不過在語音識別更新迭代的過程中,新舊共存現(xiàn)象必可避免,在初期混亂的市場藍海中,只有看清發(fā)展大勢,方能真正抓住機遇,迎來新發(fā)展。
文章編輯:CobiNet(寧波)
本公司專注于電訊配件,銅纜綜合布線系列領(lǐng)域產(chǎn)品研發(fā)生產(chǎn)超五類,六類,七類線,屏蔽模塊,配線架及相關(guān)模塊配件的研發(fā)和生產(chǎn)。
?2016-2019寧波科博通信技術(shù)有限公司版權(quán)所有浙ICP備16026074號