幸运星彩票代理歡迎您的到來!

網站地圖|RSS訂閱|

新聞信息news

TEL:4000735635
TEL:010-80105808
QQ咨詢:2158681733
郵箱:lianhbc@mssx49.com
郵編:102200
公司地址:北京市豐台區南三環西路65号B2-21

新聞詳細
您當前的位置:首頁>公司新聞>詳細内容

憑聲音即可認證身份,語音識别存在哪些發展瓶頸?

發布日期:2018-05-18來源:www.mssx49.com


一、語音識别發展漸趨成熟,未來或成生物識别主流方式

   語音識别技術,也被稱為自動語音識别(ASR)。其目标是将人類語音中的詞彙内容轉換為計算機可讀的數據,如字符序列或二進制編碼等。
   不過,早在計算機發明之前,人類就已經開始了對語音識别技術的研究,早期的聲碼器即可看作是語音識别及合成的雛形。1920年代生産的“RadioRex”玩具狗可能是最早的語音識别器。隻要呼喚這隻狗的名字,他就會從底座上彈出來。
   1952年,貝爾研究所的Davis等人開發了Audrey語音識别系統,成為世界上首個能夠識别10個英文數字發音的實驗系統。其識别方法主要是追蹤語音中的共振峰,該系統的準确率為98%。到1950年代末,CollegeofLondon(倫敦學院)将語法概率加入語音識别中。
   1960年,英國的Denes等人研究成功了第一個計算機語音識别系統,同時人工神經網絡被引入語音識别。70年代後,語音識别在孤立詞及小詞彙量的識别方面取得了實質性進展。

到了80年代,研究重點轉向大詞彙量、非特定人連續語音識别。與此同時,語音識别的研究思路由傳統的基于标準模闆匹配的技術轉為基于HMM(統計模型)的技術,并再次提出将神經網絡技術引入語音識别領域的技術思路。

   1981年,日本在第五代計算機計劃中提出了關于語音識别輸入-輸出自然語言的目标。盡管沒有按照預期實現,但關于語音識别技術的研究有了大幅度的提升和進展。1987年開始,日本又出台了高級人機口語接口和自動電話翻譯系統的項目。進入90年代以後,在語音識别的系統框架方面并沒有什麼重大突破。但是,在語音識别技術的應用及産品化方面出現了很大的進展。

中國的語音識别發展研究起始于1958年,由中國科學院聲學所利用電子管電路識别10個元音。1973年,中國科學院聲學所開始了對計算機語音識别的研究。由于當時被條件所限,中國語音識别研究工作一直處于緩慢發展的狀态。進入80年代,計算機應用技術在中國逐漸普及,數字信号技術進一步發展,國内許多單位具備了研究語音技術的基本條件。同時,語音識别技術成為國際上的研究熱點并且迅速發展。在這種情勢之下,中國有更多的機構投入此項研究。
   1986年3月,中國高科技發展計劃(863計劃)啟動,因為語音識别是智能計算機系統研究的一個重要組成部分,故而被專門列為研究課題。在863計劃的支撐下,中國開始了有組織的語音識别技術的研究。由此,中國語音識别技術進入了一個前所未有的發展階段。
   2006年深度學習興起,2009年深度學習首次在語音識别任務中取得成功,基于深度學習的語音識别取得了很大的突破。在技術方面,語音識别從最初的前饋全連接神經網絡,到之後的遞歸神經網絡,到長短時記憶模型,再到當前包含數十層結構的深層全卷積神經網絡。網絡結構愈加複雜,但也越來越能夠契合語音的特性從而實現建模,相應的效果也愈發顯著。
   當下,基于深度學習的語音識别系統已經通過海量的用戶大數據訓練得到了一個通用的識别系統,在日常場合已經能夠實現應用。技術的成熟以及廣闊的前景使得許多互聯網公司也紛紛入局語音識别領域。
去年12月,阿裡巴巴宣布為上海全部地鐵站的售票機安裝語音識别技術,用以驗證上班族的身份。科大訊飛也在安徽為醫療信息提供語音簽名服務,同時為警方提供語音識别服務。此外,百度、騰訊也分别在語音識别領域有所動作。
    由此可見,語音識别技術很可能成為繼人臉識别技術後的下一個生物識别的主流方式,并逐漸受到廣泛的關注和消費級的應用。但在發展過程中,仍然不可避免地會遭遇一些瓶頸。
二、語音識别技術基本成型,但發展過程中仍遭遇瓶頸
   目前,語音識别技術基本成型,處于較為成熟的狀态。例如在語音識别的Switchboard任務方面,最新的IBM已經能将錯誤率控制在5.5%之下,有經驗的轉寫人員在這個任務中可以達到4%之下。因此,這類安靜環境下的語音識别系統已經近似于人類水平。
   目前的進展多處于應用層面。語音合成技術被應用在更多領域,而且從原始的機器聲音已經進化到能夠發出自然人的聲音的程度,甚至現在出現各種明星聲音的語音助手。在語音識别方面,市面上已經出現了針對方言口音的語音軟件。在語義理解方面,聊天機器人正處在迅速進化的過程中,甚至能夠講笑話。在語音喚醒方面,智能音箱等産品大量出現。雖然在這些應用中,許多産品并沒有達到高層智能的水平,但也給語音識别技術指明了方向。
   實際上,語音識别技術在發音規範且背景噪音可控的環境下,在很多年前就能夠進入應用階段。不少尖端系統在工程水平很高的情況下還可以做的更好,如早期的Siri及DARPA項目語音識别評測中的各種參賽系統。
但在飛速進步的過程中,語音識别仍無法避免遇到某些瓶頸。
   在強噪聲幹擾的情況下,目前的語音識别系統還很難達到實用化要求。在自然發音、噪聲、口音等複雜條件下,語音識别的準确率明顯下降。此外,語音的訓練和測試用數據的匹配也并不十分契合。
   想要解決環境複雜的問題,除了高超的技術之外,聲學模型自适應等也是不錯的方式。對于匹配問題則可以更加偏向研究方向,對語音本質進行更為深入的理解。
   例如在人類的聽覺系統中,存在一種“雞尾酒會效應”:人類在具有背景噪聲幹擾的情況下,依然能夠将注意力集中在某一個人的談話上。可以将人類聽覺系統的這種功能賦予語音識别系統,但就目前的技術而言依然很難實現。
   同時,遠場識别也依然是個充滿挑戰性的問題。當前,語音識别的遠場錯誤率是近場的兩倍左右。因此,解決遠場及強噪聲幹擾情況下的語音識别是當前的一個有待進一步研究的問題。
   對于這個問題,目前的主要解決方法是語音識别和麥克風陣列相結合。通過陣列信号處理技術,增強多通道語音技術,而後利用深度學習的方法進行聲學建模。當然,這種方案有待于進步和優化,并且要考慮多方面的問題。如怎樣将陣列信号處理技術和深度學習方法相結合,利用陣列信号處理的相關知識指導深度神經網絡的結構設計,以便直接從多通道語音信号中學習多通道語音增強方法,而後和後端聲學模型聯合優化等。
另外,個體發音以及用詞習慣都存在差異性,所以如何使得語音識别更加智能化也是一個問題。
   可以看到,語音識别已經走到一個相對成熟的發展階段,未來也會在應用級市場普及,但在發展過程中仍然存在許多瓶頸。生物技術識别方式先進而便捷,但人們不免擔心其中所涉及到的隐私問題。

當然,目前語音識别技術并未大規模普及,但在那一天到來之前,人們需要彌補語音識别技術中存在的瓶頸。其實對于深度學習神經網絡而言,一切都隻是時間問題。足夠的語音數據加上足夠的訓練,語音識别技術的發展還是值得期待的。


成立于2005年,是一家以計算機系統集成、軟件開發為起點,緻力于信息領域多元化發展的民營高新技術企業。
經過10多年的努力,公司目前擁有多項自主知識産權産品、專利技術及軟件著作權,取得了國家級高新技術企業證書和中關村高新技術企業證書,成為國家級高新技術企業,公司自主研發的多種産品已經廣泛的應用于司法行業。

網絡直播找,24小時服務熱線4000-735-635

下一條:語音識别的基本原理

返回列表
相關新聞閱讀:

相關信息

相關産品

Copyright www.mssx49.com (複制鍊接)幸运星彩票代理專業生産智能訪客機,自助訪客系統,語音識别錄入系統,人證識别一體機,公網直播系統等産品,歡迎來電咨詢.