二、相关背景知识.doc.doc
文本预览下载声明
PAGE \* MERGEFORMAT 32
相關背景知識
蛙鳴聲紋辨識系統主要分為兩個部份,聲紋模型建置及聲紋辨識,其流程如圖2.1所示,將n種的蛙鳴訊號訓練樣本,經由模型的建置求得每種蛙類的聲紋模型,作為之後比對與辨識的依據。在聲紋辨識之前,由於錄製的音檔是一連串的離散訊號,在比較兩個聲音波形差異時,其比對的點數會過於龐大,且也會有時軸上無法校正的問題,造成比對上的錯誤率、複雜度上升。因此,在做聲紋比對與辨識之前會需要將聲音訊號做一些適當的前處理。
圖2.1 聲音辨識基本流程
一般來說,要將未知的聲音訊號做比對與辨識之前需要做訊號前處理(Preprocess),裡面包含了預強調(Pre-emphasis)、取音框(Frame)、端點偵測(Endpoint Detection),經由前處理之後做特徵參數擷取(Feature Extraction)、比對與辨識(Match),最後即產生辨識結果。
然而,雖然聲紋辨識的技術日趨成熟,但野外所錄製的聲景資料時常會有蛙類齊鳴的現象,這將導致信號處理之複雜度,進而影響辨識的效果。如圖2.2所示,圖2.2(a)是由圖2.2(b)與圖2.2(c)所混合的蛙鳴訊號。
拉都希氏赤蛙與梭德氏赤蛙混音鳴叫訊號
拉都希氏赤蛙鳴叫訊號
梭德氏赤蛙鳴叫訊號
圖2.2 混合蛙鳴及單一鳴叫訊號
對於此種問題,一般通常利用盲訊號分離(Blind Source Separation, BSS)的技術進行混音分離再個別辨識。其中以獨立成分分析法(Independent Component Analysis, ICA)是最為廣泛應用,但ICA屬於多麥克風錄音環境之下,對於單支麥克風的野外錄音環境無法適用。因此,有學者提出非負矩陣分解法(Non-negative Matrix Factorization, NMF)來解決此問題。以下將在各小節一一詳細說明聲紋辨識的基本技術及非負矩陣分解法與延伸版本稀疏雙反旋積非負矩陣分解法(Sparse Non-negative Matrix Factor 2-D Deconvolution, SNMF2D)。
聲紋辨識基本技術
聲音訊號要辨識提取特徵參數之前,為了使訊號能夠更易於處理,更能正確得到聲音訊號的特性,因此會先將訊號做前處理(Preprocess),其流程如圖2.3所示,包含預強調(Pre-emphasis)、取音框(Frame)、加窗(Window)、端點偵測(Endpoint Detection)接著是取特徵參數(Feature Extraction)及比對與辨識(Match and Recognition)的動作??以下將針對各項做詳細說明。
圖2.3 前處理流程圖
預強調
預強調是將聲音訊號通過一個高通濾波器(High Pass Filter),這是由於聲音訊號從發生體發聲到錄音設備接收過程中,其高頻部分會隨著頻率增加而產生能量衰減的現象,而此一高通濾波器的目的即是為了消除並補償發聲過程中聲帶與嘴唇所產生壓抑高頻的效應,意即用來突顯高頻的共振峰,其公式為:
(2.1)
其中a為一介於0.9~1.0之間的值,x(n)為原始時域訊號。
取音框
由於一段聲音的離散時間訊號x(n),其資料點數過於龐大不易處理,因此通常是將聲音訊號以N個取樣點為單位切割成許多小塊的連續訊號集合,通常N為256或512,涵蓋時間約為20~30ms左右,而這些小塊稱為音框(Frame),如圖xx。利用短時距處理(Short-time Processing)的概念,使得聲音訊號更易於處理。取音框的數學式如下表示:
(2.2)
圖2.4 音框處理示意圖
為了避免相鄰兩音框的變化過大,因此會讓相鄰音框之間有一段重疊區域,通常是N的1/2或1/3。以此方式重覆直到訊號結束,便能得到一序列的音框。
在取音框的過程中,音框長度的大小會影響未來訊號分析的結果,當音框的長度較大,其所需的計算量也會相對減少,但對於訊號特性改變的情形也將較難以精確呈現,使得較不易觀測到聲音訊號變化的特性。而當音框的長度較小時,在分析時會因為使用的點數變少,使得結果易受到訊號突然變化的影響,較不具代表性,計算量也會變大。故音框長度的大小,最好根據聲音訊號特性而定出較理想的值。
(a) 時域訊號
(b) 256點音框長度
(c) 512點音框長度
(d) 1024點音框長度
圖2.5 音框大小對聲音訊號分析影響
加窗
將聲音訊號取音框後,可以得到較容易處理的基本單位及減少資料的運算量。但由於音框為固定長度的關係,在音框內的訊號保留了原來之振幅值,而音框外的訊號則被設定為0,會破壞了聲音訊號的特性,造成了不連續的現象。因此,為了消除各個音框兩端可能會造成的不連續性,能夠讓兩兩音框之間能夠有更
显示全部