玩人工智能的你必須知道的語音識別技術原理

2021-12-21 18:39:27|

來源：力撲智能家居作者：

在人工智能快速發(fā)展的今天，語音識別開始成為很多設備的標配， 語音識別開始被越來越多的人關注，國外微軟、蘋果、谷歌、nuance，國內(nèi)的科大訊飛、思必馳等廠商都在研發(fā)語音識別新策略新算法，似乎人類與語音的自然交互漸行漸近。

我們都希望像《鋼鐵俠》中那樣智能先進的語音助手，在與機器人進行語音交流時，讓它聽明白你在說什么。語音識別技術將人類這一曾經(jīng)的夢想變成了現(xiàn)實。語音識別就好比“機器的聽覺系統(tǒng)”，該技術讓機器通過識別和理解，把語音信號轉變?yōu)橄鄳奈谋净蛎睢?/p>

語音識別是以語音為研究對象，通過語音信號處理和模式識別讓機器自動識別和理解人類口述的語言。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹母呒夹g。語音識別是一門涉及面很廣的交叉學科，它與聲學、語音學、語言學、信息理論、模式識別理論以及神經(jīng)生物學等學科都有非常密切的關系。語音識別技術正逐步成為計算機信息處理技術中的關鍵技術，語音技術的應用已經(jīng)成為一個具有競爭性的新興高技術產(chǎn)業(yè)。

1、語音識別的基本原理

語音識別系統(tǒng)本質(zhì)上是一種模式識別系統(tǒng)，包括特征提取、模式匹配、參考模式庫等三個基本單元，它的基本結構如下圖所示：

未知語音經(jīng)過話筒變換成電信號后加在識別系統(tǒng)的輸入端，首先經(jīng)過預處理，再根據(jù)人的語音特點建立語音模型，對輸入的語音信號進行分析，并抽取所需的特征，在此基礎上建立語音識別所需的模板。而計算機在識別過程中要根據(jù)語音識別的模型，將計算機中存放的語音模板與輸入的語音信號的特征進行比較，根據(jù)一定的搜索和匹配策略，找出一系列最優(yōu)的與輸入語音匹配的模板。然后根據(jù)此模板的定義，通過查表就可以給出計算機的識別結果。顯然，這種最優(yōu)的結果與特征的選擇、語音模型的好壞、模板是否準確都有直接的關系。

語音識別系統(tǒng)構建過程整體上包括兩大部分：訓練和識別。訓練通常是離線完成的，對預先收集好的海量語音、語言數(shù)據(jù)庫進行信號處理和知識挖掘，獲取語音識別系統(tǒng)所需要的“聲學模型”和“語言模型”;而識別過程通常是在線完成的，對用戶實時的語音進行自動識別。識別過程通常又可以分為“前端”和“后端”兩大模塊：“前端”模塊主要的作用是進行端點檢測(去除多余的靜音和非說話聲)、降噪、特征提取等;“后端”模塊的作用是利用訓練好的“聲學模型”和“語言模型”對用戶說話的特征向量進行統(tǒng)計模式識別(又稱“解碼”)，得到其包含的文字信息，此外，后端模塊還存在一個“自適應”的反饋模塊，可以對用戶的語音進行自學習，從而對“聲學模型”和“語音模型”進行必要的“校正”，進一步提高識別的準確率。

語音識別是模式識別的一個分支，又從屬于信號處理科學領域，同時與語音學、語言學、數(shù)理統(tǒng)計及神經(jīng)生物學等學科有非常密切的關系。語音識別的目的就是讓機器“聽懂”人類口述的語言，包括了兩方面的含義：其一是逐字逐句聽懂非轉化成書面語言文字;其二是對口述語言中所包含的要求或詢問加以理解，做出正確響應，而不拘泥于所有詞的正確轉換。

自動語音識別技術有三個基本原理：首先語音信號中的語言信息是按照短時幅度譜的時間變化模式來編碼;其次語音是可以閱讀的，即它的聲學信號可以在不考慮說話人試圖傳達的信息內(nèi)容的情況下用數(shù)十個具有區(qū)別性的、離散的符號來表示;第三語音交互是一個認知過程，因而不能與語言的語法、語義和語用結構割裂開來。

聲學模型

語音識別系統(tǒng)的模型通常由聲學模型和語言模型兩部分組成，分別對應于語音到音節(jié)概率的計算和音節(jié)到字概率的計算。聲學建模;語言模型

搜索

連續(xù)語音識別中的搜索，就是尋找一個詞模型序列以描述輸入語音信號，從而得到詞解碼序列。搜索所依據(jù)的是對公式中的聲學模型打分和語言模型打分。在實際使用中，往往要依據(jù)經(jīng)驗給語言模型加上一個高權重，并設置一個長詞懲罰分數(shù)。

系統(tǒng)實現(xiàn)

語音識別系統(tǒng)選擇識別基元的要求是，有準確的定義，能得到足夠數(shù)據(jù)進行訓練，具有一般性。英語通常采用上下文相關的音素建模，漢語的協(xié)同發(fā)音不如英語嚴重，可以采用音節(jié)建模。系統(tǒng)所需的訓練數(shù)據(jù)大小與模型復雜度有關。模型設計得過于復雜以至于超出了所提供的訓練數(shù)據(jù)的能力，會使得性能急劇下降。

聽寫機：大詞匯量、非特定人、連續(xù)語音識別系統(tǒng)通常稱為聽寫機。其架構就是建立在前述聲學模型和語言模型基礎上的HMM拓撲結構。訓練時對每個基元用前向后向算法獲得模型參數(shù)，識別時，將基元串接成詞，詞間加上靜音模型并引入語言模型作為詞間轉移概率，形成循環(huán)結構，用Viterbi算法進行解碼。針對漢語易于分割的特點，先進行分割再對每一段進行解碼，是用以提高效率的一個簡化方法。

對話系統(tǒng)：用于實現(xiàn)人機口語對話的系統(tǒng)稱為對話系統(tǒng)。受目前技術所限，對話系統(tǒng)往往是面向一個狹窄領域、詞匯量有限的系統(tǒng)，其題材有旅游查詢、訂票、數(shù)據(jù)庫檢索等等。其前端是一個語音識別器，識別產(chǎn)生的N-best候選或詞候選網(wǎng)格，由語法分析器進行分析獲取語義信息，再由對話管理器確定應答信息，由語音合成器輸出。由于目前的系統(tǒng)往往詞匯量有限，也可以用提取關鍵詞的方法來獲取語義信息。

二：語音識別技術原理-工作原理解讀

首先，我們知道聲音實際上是一種波。常見的mp3等格式都是壓縮格式，必須轉成非壓縮的純波形文件來處理，比如Windows PCM文件，也就是俗稱的wav文件。wav文件里存儲的除了一個文件頭以外，就是聲音波形的一個個點了。下圖是一個波形的示例。

圖中，每幀的長度為25毫秒，每兩幀之間有25-10=15毫秒的交疊。我們稱為以幀長25ms、幀移10ms分幀。

分幀后，語音就變成了很多小段。但波形在時域上幾乎沒有描述能力，因此必須將波形作變換。常見的一種變換方法是提取MFCC特征，根據(jù)人耳的生理特性，把每一幀波形變成一個多維向量，可以簡單地理解為這個向量包含了這幀語音的內(nèi)容信息。這個過程叫做聲學特征提取。實際應用中，這一步有很多細節(jié)，聲學特征也不止有MFCC這一種，具體這里不講。

至此，聲音就成了一個12行(假設聲學特征是12維)、N列的一個矩陣，稱之為觀察序列，這里N為總幀數(shù)。觀察序列如下圖所示，圖中，每一幀都用一個12維的向量表示，色塊的顏色深淺表示向量值的大小。

接下來就要介紹怎樣把這個矩陣變成文本了。首先要介紹兩個概念：

音素：單詞的發(fā)音由音素構成。對英語，一種常用的音素集是卡內(nèi)基梅隆大學的一套由39個音素構成的音素集，參見The CMU Pronouncing DicTIonary?。漢語一般直接用全部聲母和韻母作為音素集，另外漢語識別還分有調(diào)無調(diào)，不詳述。

狀態(tài)：這里理解成比音素更細致的語音單位就行啦。通常把一個音素劃分成3個狀態(tài)。

語音識別是怎么工作的呢?實際上一點都不神秘，無非是：

第一步，把幀識別成狀態(tài)(難點)。

第二步，把狀態(tài)組合成音素。

第三步，把音素組合成單詞。

如下圖所示：

圖中，每個小豎條代表一幀，若干幀語音對應一個狀態(tài)，每三個狀態(tài)組合成一個音素，若干個音素組合成一個單詞。也就是說，只要知道每幀語音對應哪個狀態(tài)了，語音識別的結果也就出來了。

那每幀音素對應哪個狀態(tài)呢?有個容易想到的辦法，看某幀對應哪個狀態(tài)的概率最大，那這幀就屬于哪個狀態(tài)。比如下面的示意圖，這幀在狀態(tài)S3上的條件概率最大，因此就猜這幀屬于狀態(tài)S3。

那這些用到的概率從哪里讀取呢?有個叫“聲學模型”的東西，里面存了一大堆參數(shù)，通過這些參數(shù)，就可以知道幀和狀態(tài)對應的概率。獲取這一大堆參數(shù)的方法叫做“訓練”，需要使用巨大數(shù)量的語音數(shù)據(jù)，訓練的方法比較繁瑣，這里不講。

但這樣做有一個問題：每一幀都會得到一個狀態(tài)號，最后整個語音就會得到一堆亂七八糟的狀態(tài)號，相鄰兩幀間的狀態(tài)號基本都不相同。假設語音有1000幀，每幀對應1個狀態(tài)，每3個狀態(tài)組合成一個音素，那么大概會組合成300個音素，但這段語音其實根本沒有這么多音素。如果真這么做，得到的狀態(tài)號可能根本無法組合成音素。實際上，相鄰幀的狀態(tài)應該大多數(shù)都是相同的才合理，因為每幀很短。

解決這個問題的常用方法就是使用隱馬爾可夫模型(Hidden Markov Model，HMM)。這東西聽起來好像很高深的樣子，實際上用起來很簡單：

第一步，構建一個狀態(tài)網(wǎng)絡。

第二步，從狀態(tài)網(wǎng)絡中尋找與聲音最匹配的路徑。

這樣就把結果限制在預先設定的網(wǎng)絡中，避免了剛才說到的問題，當然也帶來一個局限，比如你設定的網(wǎng)絡里只包含了“今天晴天”和“今天下雨”兩個句子的狀態(tài)路徑，那么不管說些什么，識別出的結果必然是這兩個句子中的一句。

那如果想識別任意文本呢?把這個網(wǎng)絡搭得足夠大，包含任意文本的路徑就可以了。但這個網(wǎng)絡越大，想要達到比較好的識別準確率就越難。所以要根據(jù)實際任務的需求，合理選擇網(wǎng)絡大小和結構。

搭建狀態(tài)網(wǎng)絡，是由單詞級網(wǎng)絡展開成音素網(wǎng)絡，再展開成狀態(tài)網(wǎng)絡。語音識別過程其實就是在狀態(tài)網(wǎng)絡中搜索一條最佳路徑，語音對應這條路徑的概率最大，這稱之為“解碼”。路徑搜索的算法是一種動態(tài)規(guī)劃剪枝的算法，稱之為Viterbi算法，用于尋找全局最優(yōu)路徑。

這里所說的累積概率，由三部分構成，分別是：

觀察概率：每幀和每個狀態(tài)對應的概率

轉移概率：每個狀態(tài)轉移到自身或轉移到下個狀態(tài)的概率

語言概率：根據(jù)語言統(tǒng)計規(guī)律得到的概率

其中，前兩種概率從聲學模型中獲取，最后一種概率從語言模型中獲取。語言模型是使用大量的文本訓練出來的，可以利用某門語言本身的統(tǒng)計規(guī)律來幫助提升識別正確率。語言模型很重要，如果不使用語言模型，當狀態(tài)網(wǎng)絡較大時，識別出的結果基本是一團亂麻。

這樣基本上語音識別過程就完成了,這就是語音識別技術的原理。

三：語音識別技術原理-語音識別系統(tǒng)的工作流程

一般來說，一套完整的語音識別系統(tǒng)其工作過程分為7步：

①對語音信號進行分析和處理，除去冗余信息。

②提取影響語音識別的關鍵信息和表達語言含義的特征信息。

③緊扣特征信息，用最小單元識別字詞。

④按照不同語言的各自語法，依照先后次序識別字詞。

⑤把前后意思當作輔助識別條件，有利于分析和識別。

⑥按照語義分析，給關鍵信息劃分段落，取出所識別出的字詞并連接起來，同時根據(jù)語句意思調(diào)整句子構成。

⑦結合語義，仔細分析上下文的相互聯(lián)系，對當前正在處理的語句進行適當修正。

音識別系統(tǒng)基本原理框圖

語音識別系統(tǒng)基本原理結構如圖所示。語音識別原理有三點：①對語音信號中的語言信息編碼是按照幅度譜的時間變化來進行;②由于語音是可以閱讀的，也就是說聲學信號可以在不考慮說話人說話傳達的信息內(nèi)容的前提下用多個具有區(qū)別性的、離散的符號來表示;③語音的交互是一個認知過程，所以絕對不能與語法、語義和用語規(guī)范等方面分裂開來。

預處理，其中就包括對語音信號進行采樣、克服混疊濾波、去除部分由個體發(fā)音的差異和環(huán)境引起的噪聲影響，此外還會考慮到語音識別基本單元的選取和端點檢測問題。反復訓練是在識別之前通過讓說話人多次重復語音，從原始語音信號樣本中去除冗余信息，保留關鍵信息，再按照一定規(guī)則對數(shù)據(jù)加以整理，構成模式庫。再者是模式匹配，它是整個語音識別系統(tǒng)的核心部分，是根據(jù)一定規(guī)則以及計算輸入特征與庫存模式之間的相似度，進而判斷出輸入語音的意思。

前端處理，先對原始語音信號進行處理，再進行特征提取，消除噪聲和不同說話人的發(fā)音差異帶來的影響，使處理后的信號能夠更完整地反映語音的本質(zhì)特征提取，消除噪聲和不同說話人的發(fā)音差異帶來的影響，使處理后的信號能夠更完整地反映語音的本質(zhì)特征。

四：語音識別技術原理-發(fā)展歷程

早在計算機發(fā)明之前，自動語音識別的設想就已經(jīng)被提上了議事日程，早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產(chǎn)的“Radio Rex”玩具狗可能是最早的語音識別器，當這只狗的名字被呼喚的時候，它能夠從底座上彈出來。最早的基于電子計算機的語音識別系統(tǒng)是由AT&T貝爾實驗室開發(fā)的Audrey語音識別系統(tǒng)，它能夠識別10個英文數(shù)字。其識別方法是跟蹤語音中的共振峰。該系統(tǒng)得到了98%的正確率。到1950年代末，倫敦學院(Colledge of London)的Denes已經(jīng)將語法概率加入語音識別中。

1960年代，人工神經(jīng)網(wǎng)絡被引入了語音識別。這一時代的兩大突破是線性預測編碼Linear PredicTIve Coding (LPC)，及動態(tài)時間彎折Dynamic Time Warp技術。

語音識別技術的最重大突破是隱含馬爾科夫模型Hidden Markov Model的應用。從Baum提出相關數(shù)學推理，經(jīng)過Labiner等人的研究，卡內(nèi)基梅隆大學的李開復最終實現(xiàn)了第一個基于隱馬爾科夫模型的大詞匯量語音識別系統(tǒng)Sphinx。此后嚴格來說語音識別技術并沒有脫離HMM框架。

實驗室語音識別研究的巨大突破產(chǎn)生于20世紀80年代末：人們終于在實驗室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙，第一次把這三個特性都集成在一個系統(tǒng)中，比較典型的是卡耐基梅隆大學(CarnegieMellonUniversity)的Sphinx系統(tǒng)，它是第一個高性能的非特定人、大詞匯量連續(xù)語音識別系統(tǒng)。

這一時期，語音識別研究進一步走向深入，其顯著特征是HMM模型和人工神經(jīng)元網(wǎng)絡(ANN)在語音識別中的成功應用。HMM模型的廣泛應用應歸功于AT&TBell實驗室Rabiner等科學家的努力，他們把原本艱澀的HMM純數(shù)學模型工程化，從而為更多研究者了解和認識，從而使統(tǒng)計方法成為了語音識別技術的主流。

20世紀90年代前期，許多著名的大公司如IBM、蘋果、AT&T和NTT都對語音識別系統(tǒng)的實用化研究投以巨資。語音識別技術有一個很好的評估機制，那就是識別的準確率，而這項指標在20世紀90年代中后期實驗室研究中得到了不斷的提高。比較有代表性的系統(tǒng)有：IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking，Nuance公司的NuanceVoicePlatform語音平臺，Microsoft的Whisper，Sun的VoiceTone等。

標簽：人工智能語音識別