99久久精品国产一区二区狐狸,99福利在线观看,国产精品毛片在线,成人影院亚洲,日韩精品第一,天天躁日日躁性色aⅴ电影,午夜毛片网

基于雙向雙耳匹配濾波器加權(quán)融合的雙耳聲源定位方法與流程

文檔序號(hào):11229115閱讀:1164來源:國(guó)知局
基于雙向雙耳匹配濾波器加權(quán)融合的雙耳聲源定位方法與流程

本發(fā)明屬于信息技術(shù)領(lǐng)域,涉及一種適用于復(fù)雜聲學(xué)環(huán)境下的雙耳聲源定位方法,具體涉及一種基于雙向雙耳匹配濾波器加權(quán)融合的雙耳聲源定位方法。



背景技術(shù):

聲源定位技術(shù)是指對(duì)接收到的信號(hào)進(jìn)行處理得到自然聲源或人為聲源所在的位置信息。它涉及到人工智能、聽覺心理學(xué)、聽覺生理學(xué)和高性能計(jì)算機(jī)系統(tǒng)等多個(gè)研究領(lǐng)域,在多種領(lǐng)域有廣泛的應(yīng)用前景。由于聲音具有繞過障礙物的特性,在機(jī)器人多信息采集系統(tǒng)中,聽覺可以與機(jī)器人視覺相配合彌補(bǔ)其視覺有限性及不能穿過非透光障礙物的局限性。早期的機(jī)器人導(dǎo)航主要使用測(cè)距傳感器(如聲納),而跟蹤主要依靠視覺。這種形式在視覺場(chǎng)景內(nèi)被廣泛作為定位目標(biāo)的方式。但是像人和大部分動(dòng)物那樣,視覺場(chǎng)景被限制在小于180°的范圍內(nèi)。在真實(shí)世界中,聽覺能帶來360°的“聽覺場(chǎng)景”。它能定位不在視覺場(chǎng)景內(nèi)的聲音目標(biāo),即定位由物體遮擋造成的模糊目標(biāo)或在拐角處的聲音目標(biāo)。

雙耳聲源定位是聲源定位技術(shù)發(fā)展的一個(gè)重要分支。雙耳定位充分利用了雙麥克風(fēng)的易搭載性和耳廓的濾波特性,在智能監(jiān)控、移動(dòng)機(jī)器人、虛擬現(xiàn)實(shí)、視頻會(huì)議等研究中有著重要的應(yīng)用。它是聲源定位技術(shù)的一個(gè)重要分支,不僅利用了雙麥克風(fēng)簡(jiǎn)易的陣列結(jié)構(gòu),又結(jié)合人耳聽覺特性成功克服了雙麥克風(fēng)定位的前后向歧義性。

雙耳音頻天然具有很多通信及多媒體體驗(yàn)的優(yōu)勢(shì)。在人與人的日常交互中,聽覺感知都是人與人之間最有效最直接的交互方式之一。其中在日常感知世界、獲取信息的主要過程中,人們通過視覺獲取的信息大約占到了70%-80%,通過聽覺獲取的信息大約占到了10%-20%。因此在機(jī)器人智能化程度不斷提升的過程中,機(jī)器人的聽覺交互是必不可少的研究方向。人和其他的哺乳動(dòng)物的聽覺系統(tǒng)都具有很強(qiáng)的聲源定位能力,因此人類一直期望機(jī)器人能夠像人一樣具有實(shí)時(shí)定位環(huán)境中的聲源位置的能力。事實(shí)上,能否進(jìn)行聽覺定位是機(jī)器人智能與否的重要標(biāo)志之一。與機(jī)器人視覺相比,機(jī)器人聽覺仍然處于初始階段。然而與機(jī)器人視覺相比,聽覺的優(yōu)勢(shì)在于:

1)視覺的應(yīng)用場(chǎng)景僅限于180°范圍內(nèi),而聽覺卻可以定位到360°的范圍。

2)由于聲音信號(hào)的衍射性能,相較于視覺、激光等其他的傳感信號(hào)聽覺不需要直線視野,在有視野遮蔽障礙物的情況下依然可以有效的工作。

基本上,雙耳聲音源定位是一個(gè)模式分類的問題。類似于自動(dòng)語音識(shí)別,其主要的兩大步驟分別是:語音信號(hào)處理和模式分類。首先通過雙耳傳聲器接收原始的聲音源信號(hào),并進(jìn)行模數(shù)轉(zhuǎn)換,把模擬聲音信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)。在信號(hào)處理階段,首先對(duì)原始信號(hào)進(jìn)行預(yù)處理:降噪和濾波,信號(hào)預(yù)加重,分幀并加窗,對(duì)于每幀信號(hào)提取特征時(shí)域的特征或頻域特征組成特征向量。特征向量可以有效表征聲源的位置信息。模式分類階段,通過與定位系統(tǒng)中的先驗(yàn)知識(shí)(即模板)進(jìn)行比對(duì)從而得出定位結(jié)果?,F(xiàn)有的聲源定位系統(tǒng)包括以下步驟:

1、語音錄入,預(yù)濾波、模數(shù)變換。先把錄入的模擬聲音信號(hào)進(jìn)行預(yù)濾波,高通濾波抑制50hz電源噪聲信號(hào);低通濾波濾除聲音信號(hào)中頻率分量超過采樣頻率一半的部分,防止混疊干擾,對(duì)模擬聲音信號(hào)進(jìn)行采樣和量化得到數(shù)字信號(hào)。

2、預(yù)加重。信號(hào)通過高頻加重濾波器沖激響應(yīng)h(z)=1-0.95z-1,以補(bǔ)償嘴唇輻射帶來的高頻衰減。

3、分幀、加窗。由于語音信號(hào)的慢時(shí)變性,整體非平穩(wěn),局部平穩(wěn),一般認(rèn)為語音信號(hào)在10-30ms內(nèi)是平穩(wěn)的,可以把聲音信號(hào)按照20ms的長(zhǎng)度進(jìn)行分幀。分幀函數(shù)為:

xk(n)=w(n)s(nk+n)n=0,1...n-1;k=0,1...l-1

其中n為幀長(zhǎng),l為幀數(shù),s表示語音信號(hào)。w(n)為窗函數(shù),它的選擇(形狀和長(zhǎng)度)對(duì)短時(shí)分析參數(shù)的特性影響很大,常用的窗函數(shù)包括矩形窗、漢寧窗和漢明窗等。一般選用漢明窗,可以很好地反應(yīng)語音信號(hào)的特性變化,漢明窗表達(dá)式為:

4、特征提取。利用信號(hào)匹配濾波的思想。將雙耳信號(hào)中的其中一個(gè)作為輸入信號(hào),另一個(gè)作為期望輸出信號(hào),通過求解匹配的濾波器系數(shù),將其視為一種新的特征線索。

5、在線定位。從雙耳傳聲器接收的音頻信號(hào)中提取特征與模板中存儲(chǔ)的特征進(jìn)行全局匹配,差別最小的情況被視為聲源最有可能出現(xiàn)的位置。不過在幾何定位中則是直接利用雙耳特征與環(huán)境位置之間的關(guān)系計(jì)算聲源的坐標(biāo),這種模式理論上可以得到準(zhǔn)確解,但是易受環(huán)境噪聲及混響等因素的干擾。

目前主要的聲源定位算法包括麥克風(fēng)陣列聲源定位算法和基于雙通道的聲源定位算法?;陔p通道語音信號(hào)的聲源定位方法模擬人耳的聽覺特征,可以實(shí)現(xiàn)較為準(zhǔn)確的聲源定位。最具有代表性的是基于互相關(guān)函數(shù)的雙耳時(shí)間差估計(jì),然而實(shí)際環(huán)境下的噪聲和混響,會(huì)嚴(yán)重影響基于互相關(guān)函數(shù)的聲源定位性能。傳統(tǒng)的雙耳聲源定位方法主要提取雙耳時(shí)間差和雙耳能量差作為定位線索。由于時(shí)間差和能量差的提取與聲源的頻率有關(guān),而且轉(zhuǎn)向角的確定只與時(shí)間差及部分高頻能量差相關(guān),俯仰角的確定只與能量差有關(guān)。所以傳統(tǒng)的定位線索在一定程度上并不能滿足精準(zhǔn)定位的需求,仍有許多問題亟待解決。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提出了一種基于雙向雙耳匹配濾波器加權(quán)融合的雙耳聲源定位方法,提出了一種新的雙耳定位線索,采用雙向匹配,決策加權(quán)融合的方法得到魯棒的特征雙耳線索。利用包含更多能量信息的定位線索進(jìn)行定位,有效解決了聲源定位技術(shù)中雙耳線索在噪聲環(huán)境下只能在部分區(qū)域性能最優(yōu)、垂直方向定位效果差的問題。該方法提出了雙耳匹配濾波的概念,提取新的定位線索,降低了算法的時(shí)間復(fù)雜度,保證了聲源定位系統(tǒng)的實(shí)時(shí)性要求。通過該方法,可以提高在噪聲環(huán)境下的雙耳聲源定位的效果。

為了實(shí)現(xiàn)上述目的,本發(fā)明采用以下技術(shù)方案:

一種基于雙向雙耳匹配濾波器加權(quán)融合的雙耳聲源定位方法,主要以下步驟:

1)訓(xùn)練階段,在定位空間錄制聲源數(shù)據(jù),保存于雙耳語音聲源定位數(shù)據(jù)庫,為決策加權(quán)融合后的數(shù)據(jù)庫中聲源數(shù)據(jù)的雙向雙耳匹配濾波器建立模板,具體包括:

1-1)定位空間按照轉(zhuǎn)向角(水平方向)和俯仰角(豎直方向)劃分坐標(biāo)系;

1-2)采用固定聲源到坐標(biāo)系中心距離,在室內(nèi)/半室內(nèi)安靜環(huán)境中分別為定位空間劃分后的每個(gè)方向錄制聲源數(shù)據(jù);

1-3)決策加權(quán)融合,分別計(jì)算每個(gè)方向上聲源數(shù)據(jù)的雙向雙耳匹配濾波器的代價(jià)函數(shù)和誤差函數(shù),根據(jù)得到的代價(jià)函數(shù)和誤差函數(shù)對(duì)雙向雙耳匹配濾波器進(jìn)行加權(quán)融合;

1-4)離線訓(xùn)練,為每個(gè)方向的加權(quán)融合后的雙向雙耳匹配濾波器的系數(shù)向量建立模板;

2)定位線索提取階段,當(dāng)檢測(cè)到聲源時(shí),計(jì)算得到的聲源數(shù)據(jù)的雙向雙耳匹配濾波器的代價(jià)函數(shù)和誤差函數(shù)進(jìn)行加權(quán)融合,得到融合后的混合雙向雙耳匹配濾波器系數(shù)向量,作為提取的定位線索;

3)將步驟2)中得到定位線索與步驟1)中訓(xùn)練的模板進(jìn)行相似性計(jì)算;然后通過概率計(jì)算,實(shí)現(xiàn)雙耳聲源定位。

進(jìn)一步地,步驟1)轉(zhuǎn)向角(水平方向)采用非均勻的劃分方法,俯仰角(豎直方向)采用均勻劃分的方式。

進(jìn)一步地,步驟1)所述模板包括所有方向上混合雙向雙耳匹配濾波器系數(shù)加權(quán)融合后得到的系數(shù)向量。

進(jìn)一步地,步驟1-3),分別跟據(jù)以下公式計(jì)算每個(gè)方向上的雙向雙耳匹配濾波器的誤差函數(shù)和代價(jià)函數(shù):

ef(n)=xr(n)-yf(n),eb(n)=xl(n)-yb(n);

其中xr(n),xl(n)分別表示左耳和右耳接收的語音信號(hào),yf(n),yb(n)分別表示正向雙耳匹配濾波器的期望輸出信號(hào)和逆向雙耳匹配濾波器的期望輸出信號(hào);e表示最小均方誤差。

進(jìn)一步地,步驟1-3)所述雙向雙耳匹配濾波器(即正向雙耳匹配濾波器和逆向雙耳匹配濾波器)的系數(shù)向量可以通過最小化均方誤差,可以得到維納霍夫差分方程:

其中,是濾波器輸入信號(hào)為xl(n)(即左耳信號(hào))時(shí)的自相關(guān)函數(shù),為左右耳信號(hào)的互相關(guān)函數(shù),若令xl(n)=[xl(n),xl(n-1),…,xl(n-m+1)]t,則輸入信號(hào)的自相關(guān)矩陣為:

式中h表示共軛轉(zhuǎn)置;同理,濾波器輸入信號(hào)與期望信號(hào)之間的互相關(guān)向量為:

因此,求解維納霍夫方程,可以得到正向雙耳匹配濾波器的系數(shù)向量為:

同理,逆向雙耳匹配濾波器的系數(shù)向量為:

進(jìn)一步地,步驟1-3)所述加權(quán)函數(shù)為:

ωh=ωfψf+ωbψb,

進(jìn)一步地,步驟3)中,兩個(gè)方向上加權(quán)融合后的雙向雙耳匹配濾波器的相似度通過其加權(quán)融合雙向雙耳匹配濾波器系數(shù)向量的夾角余弦來衡量,定義為:

ωh,ωtemp分別表示由聲源獲得的雙耳匹配濾波器系數(shù)向量和來自模板的濾波器系數(shù)向量。

進(jìn)一步地,步驟3)中所述概率計(jì)算為通過最大后驗(yàn)概率得到聲源的最終位置分布的最大概率:

通過采取上述技術(shù)方案,本發(fā)明首先設(shè)計(jì)雙向雙耳匹配濾波器。然后根據(jù)正向雙耳匹配濾波器和逆向雙耳匹配濾波器的代價(jià)函數(shù)和誤差函數(shù)進(jìn)行決策加權(quán)融合,得到加權(quán)融合后的全局雙耳線索。最后用模式分類的方法,通過計(jì)算加權(quán)融合后的線索和離線訓(xùn)練后的模板進(jìn)行匹配。然后通過聲源所在位置的最大后驗(yàn)概率得到聲源的最終位置。提出了雙耳匹配濾波的概念,提取新的定位線索,降低了算法的時(shí)間復(fù)雜度,保證了聲源定位系統(tǒng)的實(shí)時(shí)性要求。其在噪聲環(huán)境下的雙耳聲源定位的效果,相比于傳統(tǒng)的方法有較明顯的提高。

附圖說明

圖1是本發(fā)明一實(shí)施例中的正向雙耳匹配濾波器和逆向雙耳匹配濾波器原理示意圖。

圖2a及圖2b是本發(fā)明一實(shí)施例中基于最小均方誤差設(shè)計(jì)決策加權(quán)融合后的所有方向上的估計(jì)誤差均值和方差。

圖3是本發(fā)明一實(shí)施例中基于雙向雙耳匹配濾波器加權(quán)融合后得到的雙耳聲源定位結(jié)果示意圖,圖中,越亮的地方代表概率越大。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,可以理解的是,所描述的實(shí)施例僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

首先介紹本發(fā)明的技術(shù)構(gòu)思及原理:

雙向雙耳匹配濾波器的設(shè)計(jì)。定義正向雙耳匹配濾波器即將左耳信號(hào)xl(n)作為濾波器的輸入信號(hào),右耳信號(hào)xr(n)作為濾波器的參考信號(hào)(期望信號(hào)),如圖1所示,反之即得到反向雙耳匹配濾波器。下面我們以正向雙耳匹配濾波器為例,逆向雙耳匹配濾波器的設(shè)計(jì)除輸入輸出相反外,其他均一樣。令濾波器的系數(shù)向量w=[w0,w1,…,wm-1],m表示幀長(zhǎng),則濾波器的輸出信號(hào)為:

因此,濾波器的匹配誤差可以定義為:

e(n)=xr(n)-y(n)(2)

通過最小化均方誤差,即代價(jià)函數(shù)j(n)=e{|e(n)|2}=e{e(n)e*(n)}可以得到著名的維納霍夫(wiener-hopf)差分方程:

其中,是濾波器輸入信號(hào)為xl(n)(即左耳信號(hào))時(shí)的自相關(guān)函數(shù),為左右耳信號(hào)的互相關(guān)函數(shù),若令xl(n)=[xl(n),xl(n-1),…,xl(n-m+1)]t,則輸入信號(hào)的自相關(guān)矩陣為:

式中h表示共軛轉(zhuǎn)置。同理,濾波器輸入信號(hào)與期望信號(hào)之間的互相關(guān)向量為:

因此,求解維納霍夫方程,我們可以得到正向雙耳匹配濾波器的系數(shù)向量為:

同理,逆向雙耳匹配濾波器的系數(shù)向量為:

2.決策加權(quán)。根據(jù)設(shè)計(jì)的雙向雙耳匹配濾波器的代價(jià)函數(shù)和誤差函數(shù)對(duì)其進(jìn)行決策加權(quán)融合。加權(quán)后得到的新的雙耳線索可以表示為:

ωh=ωfψf+ωbψb

其中:

3.聲源定位。最終的定位結(jié)果采用模式分類的方法。通過余弦相似性判定兩個(gè)向量之間的角度的余弦值,從而確定兩個(gè)向量是否指向相同的方向。兩個(gè)向量有相同的指向時(shí),余弦相似度的值為1;兩個(gè)向量夾角為90°時(shí),余弦相似度的值為0;兩個(gè)向量指向完全相反的方向時(shí),余弦相似度的值為-1。此時(shí),基于全局雙耳線索的余弦相似性矩陣可以確定最后聲源所存在的位置:

這里的<,>,‖‖分別表示由聲源獲得的濾波器系數(shù)向量和來自模板的濾波器系數(shù)向量。ωh,ωtemp分別表示由聲源獲得的雙耳匹配濾波器系數(shù)向量和來自模板的濾波器系數(shù)向量。當(dāng)聲源出現(xiàn)時(shí),聲源所在的位置通過最大后驗(yàn)概率得到最大概率可以最終確定:

基于前述對(duì)技術(shù)構(gòu)思和原理的介紹和闡述,本實(shí)施實(shí)例采用加州大學(xué)戴維斯分校的cipic數(shù)據(jù)庫進(jìn)行試驗(yàn),此數(shù)據(jù)庫具有目前最大的人頭采集數(shù)量和最多的方向采集數(shù)。此數(shù)據(jù)庫在國(guó)際上人形機(jī)器人聲源定位中較為權(quán)威而且是使用最為廣泛的數(shù)據(jù)庫之一。數(shù)據(jù)庫中共有45個(gè)人頭進(jìn)行試驗(yàn),其中包括27名成年男性,16名成年女性,以及一個(gè)仿真人頭模型kemar,在此仿真模型中又分別設(shè)置了大耳廓與小耳廓,在數(shù)據(jù)錄取時(shí)將麥克風(fēng)置于人耳之中或者仿真耳中。圖1是本發(fā)明實(shí)施例中流程示意圖。

數(shù)據(jù)采集過程是在嚴(yán)格的消音室進(jìn)行,所使用的所有聲源距離人頭中心距離(即雙耳連線的中點(diǎn)位置)為1米。該數(shù)據(jù)庫只考慮了人頭前方的定位空間,共劃分為25個(gè)轉(zhuǎn)向角區(qū)間[-80°,-65°,-55°,-45°:5°:45,55°,65°,80°];俯仰角按照均勻劃分的模式,共分為50個(gè)區(qū)間[-45°:5.625°:230.625°],即一共1250個(gè)方向。采樣頻率為44.1khz,數(shù)據(jù)格式為長(zhǎng)度為200的fir濾波器,即頭相關(guān)傳遞函數(shù)hrtf。因此,這里只需用聲源信號(hào)與hrtf卷積就可以得到雙耳傳聲器接收到的信號(hào)。

在線定位階段,聲源信號(hào)采用真實(shí)的說話人的語音信號(hào)進(jìn)行測(cè)試,采樣頻率為44.1khz,對(duì)一個(gè)較短的時(shí)間窗內(nèi)(當(dāng)前t秒)的信號(hào)進(jìn)行識(shí)別,給出當(dāng)前時(shí)間窗的識(shí)別結(jié)果。

1.對(duì)當(dāng)前時(shí)間窗內(nèi)聲源信號(hào)進(jìn)行分幀、加窗處理,幀長(zhǎng)為256個(gè)采樣點(diǎn),幀移為128個(gè)采樣點(diǎn),觀測(cè)時(shí)間長(zhǎng)度為2s;

2.分別計(jì)算每個(gè)方向上的雙向雙耳匹配濾波器的代價(jià)和誤差函數(shù),根據(jù)得到的代價(jià)函數(shù)和誤差函數(shù)對(duì)雙向雙耳匹配濾波器進(jìn)行加權(quán)融合(公式8);圖2a和圖2b是本發(fā)明實(shí)施例中基于最小均方誤差設(shè)計(jì)決策加權(quán)融合后的所有方向上的估計(jì)誤差均值和方差。

3.圖3是基于雙向雙耳匹配濾波器決策融合的定位示意圖,顏色越亮表示聲源在該位置出現(xiàn)的概率越大。例如聲源在-25°和45°時(shí)如圖所示。

表1所示為不同信噪比情況下基于正向雙耳匹配濾波器、逆向雙耳匹配濾波器和加權(quán)融合后的全局雙耳匹配濾波器的轉(zhuǎn)向角定位結(jié)果。表2所示為不同信噪比情況下基于正向雙耳匹配濾波器、逆向雙耳匹配濾波器和加權(quán)融合后的全局雙耳匹配濾波器的俯仰角定位結(jié)果。從表中我們可以清楚的看到,改進(jìn)后的雙耳線索的定位效果相比有了明顯的提升。

表1不同信噪比情況下正向、逆向、決策加權(quán)后的雙耳匹配濾波器轉(zhuǎn)向角定位結(jié)果

表2不同信噪比情況下正向、逆向、決策加權(quán)后的雙耳匹配濾波器俯仰角定位結(jié)果

上述實(shí)例只是本發(fā)明的舉例,盡管為說明目的公開了本發(fā)明的實(shí)例,但是本領(lǐng)域的技術(shù)人員可以理解:在不脫離本發(fā)明及所附的權(quán)利要求的精神和范圍內(nèi),各種替換、變化和修改都是可能的。因此,本發(fā)明不應(yīng)局限于該實(shí)例的內(nèi)容。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1