當(dāng)前位置：首頁(yè) > 新聞資訊 > 機(jī)器人開(kāi)發(fā) > 機(jī)器人語(yǔ)音識(shí)別主要模式:頻譜圖法,LPC法,隱藏式馬可

機(jī)器人語(yǔ)音識(shí)別主要模式:頻譜圖法,LPC法,隱藏式馬可

來(lái)源：神奇的機(jī)器人編輯：創(chuàng)澤時(shí)間：2025/12/29 主題：其他 [加盟]

人的發(fā)聲器官可以分為兩個(gè)部分，即聲道和聲帶。如果直接讓機(jī)器人理解我們說(shuō)的話，難度比較大，將人類語(yǔ) 言轉(zhuǎn)化為機(jī)器人可以理解識(shí)別的信號(hào)，就是一個(gè)很好的途徑。如果將整個(gè)過(guò)程看為一個(gè)信號(hào)過(guò)程的話，聲帶是發(fā)生源，聲道相當(dāng)于一個(gè)諧振時(shí)的聲帶振動(dòng)，可用一個(gè)脈沖串發(fā)生器代替。發(fā)一些有聲帶振動(dòng)的音時(shí)，可用一個(gè)脈沖串發(fā)生器代替。發(fā)一些無(wú)振音的時(shí)候，因?yàn)槁晭Р⒉徽駝?dòng)，而是從喉管發(fā)出的，只是一般的隨機(jī)氣流，可以用一個(gè)噪聲發(fā)生器代替。上文介紹過(guò)，聲音的強(qiáng)弱是變化的，用一個(gè)增益因子K 來(lái)表示的話

通過(guò)上面的辦法，我們可以把語(yǔ)音信號(hào)轉(zhuǎn)化為機(jī)器人能夠理解的電信號(hào)，那么機(jī)器人又要怎樣去理解呢?

由于人類的語(yǔ)言非常復(fù)雜，無(wú)論哪個(gè)民族，其詞匯量都非常大，即使是同一個(gè) 人，他的發(fā)音也隨著環(huán)境及身體情況的變化而變化。目前在大詞匯語(yǔ)音識(shí)別方面處于L先地位的IBM 語(yǔ)音研究小組，就是在70年代開(kāi)始了大詞匯語(yǔ)音識(shí)別研究工作的。AT&A 的貝爾研究所也開(kāi)始了一系列有關(guān)非特定人語(yǔ)音識(shí)別的實(shí)驗(yàn)。這一研究歷經(jīng)10年，其成果是確立了如何制作用于非特定人語(yǔ)音識(shí)別的標(biāo)準(zhǔn)模板的方法。

關(guān)于語(yǔ)音識(shí)別，表4-1介紹了三種主要模式。

頻譜圖法

將語(yǔ)音信號(hào)的頻譜沿著時(shí)間軸加以展開(kāi)，制成頻譜圖。此法是取語(yǔ)音信號(hào)的頻率特性作為比較基礎(chǔ)。此種方法識(shí)別精度一般，適用于對(duì)少量語(yǔ)音的識(shí)別，及對(duì)特定人說(shuō)話的場(chǎng)合

LPC法

即線性預(yù)估編碼法，此法是對(duì)語(yǔ)音信號(hào)抽取LPC系數(shù)，然后與參考樣板的LPC系數(shù)加以比較，計(jì)算出其間的“差距”。LPC法是模擬人的發(fā)音器官構(gòu)造而設(shè)計(jì)的。因此，LPC系數(shù)就代表發(fā)音器官腔調(diào)的不同狀態(tài)。此法也用于特定人的語(yǔ)音識(shí)別

隱藏式馬可夫模式

此法可用于非特定人的語(yǔ)音識(shí)別。即要識(shí)別不同人的發(fā)音，并且對(duì)同一個(gè)人發(fā)同一個(gè)音，每次發(fā)音也未必一致。這需要有大量的“儲(chǔ)存”與“比較”。此法是采用“統(tǒng) 籌”的理論，建立語(yǔ)音的狀態(tài)轉(zhuǎn)移模式。經(jīng)大量的語(yǔ)音資料得出模式的“概率”,選出“相似率”Z高者

語(yǔ)音識(shí)別系統(tǒng)的模型通常由聲學(xué)模型和語(yǔ)言模型兩部分組成，分別對(duì)應(yīng)于語(yǔ)音到音節(jié)概率的計(jì)算和音節(jié)到字概率的計(jì)算。在聲學(xué)模型方面，我們介紹一下 HMM 聲學(xué)模型。

HMM 聲學(xué)建模：馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動(dòng)機(jī)，隱馬爾可夫模型HMM 是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見(jiàn)，外界只能看到各個(gè)時(shí)刻的輸出值。對(duì)語(yǔ)音識(shí)別系統(tǒng)，輸出值通常就是從各個(gè)幀計(jì)算而得的聲學(xué)特征。用HMM 刻畫語(yǔ)音信號(hào)需作出兩個(gè)假設(shè)，一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān)，另一是輸出值只與當(dāng)前狀態(tài)(或當(dāng)前的狀態(tài)轉(zhuǎn)移)有關(guān)，這兩個(gè)假設(shè) 大大降低了模型的復(fù)雜度。HMM 的打分、解碼和訓(xùn)練相應(yīng)的算法是前向算法、 Viterbi算法和前向后向算法。

總的來(lái)說(shuō)，語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程把語(yǔ)音信號(hào)轉(zhuǎn)變為相應(yīng)的文本或命令的高技術(shù)，其技術(shù)流程圖如圖4-17所示。語(yǔ)音識(shí)別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。語(yǔ)音識(shí)別技術(shù)車聯(lián)網(wǎng)也得到了充分的引用，例如在翼卡車聯(lián)網(wǎng)中，只需按照一鍵通客服人員口述要求即可設(shè)置目的地直接導(dǎo)航，安全、便捷。語(yǔ)音識(shí)別技術(shù)正朝著能識(shí)別任意人發(fā)音的方向發(fā)展。

機(jī)器人語(yǔ)音識(shí)別主要模式:頻譜圖法,LPC法,隱藏式馬可

頻譜圖法

LPC法

隱藏式馬可夫模式

機(jī)器人圖像處理的幾種方法：點(diǎn)運(yùn)算、圖像增強(qiáng)、圖像復(fù)原

機(jī)器人如何看到物體：由硬件圖像采集和軟件圖像信息處理

機(jī)器人如何規(guī)劃行走路線：全局規(guī)劃方法，局部規(guī)劃

機(jī)器人的視覺(jué)傳感技術(shù)，從二維圖像中理解和構(gòu)造出三維世界的真實(shí)模型

機(jī)器人的工件識(shí)別傳感器：接觸識(shí)別、采樣式測(cè)量、鄰近探測(cè)、距離測(cè)量、機(jī)械視覺(jué)識(shí)別

機(jī)器人的柔性腕力傳感器：檢測(cè)末端執(zhí)行器所受外力/力矩的大小和方向

機(jī)器人位姿傳感器：6個(gè)電渦流傳感器組成的特定空間結(jié)構(gòu)

機(jī)器人軌跡規(guī)劃的基本原理

機(jī)器人操作臂動(dòng)力學(xué)方程系數(shù)的簡(jiǎn)化

WebSocket在實(shí)時(shí)對(duì)話中存在關(guān)鍵缺陷:數(shù)據(jù)包丟失或延遲,破壞對(duì)話流暢性

機(jī)器人互動(dòng)如何做好上下文：短期記憶，固化和注入長(zhǎng)期記憶：

機(jī)器人的動(dòng)力學(xué)：拉格朗日法

服務(wù)機(jī)器人(迎賓、講解、導(dǎo)診...)

智能消毒機(jī)器人

機(jī)器人開(kāi)發(fā)平臺(tái)