一種基于PSO-GBDT-LR模型的咳嗽聲音識別方法

文檔序號：42587989發(fā)布日期：2025-07-29 17:40閱讀：12來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及一種基于pso-gbdt-lr模型的咳嗽聲音識別方法，屬于信號識別。

背景技術(shù)：

1、咳嗽是很多呼吸系統(tǒng)疾病的主要癥狀，如上呼吸道感染、支氣管炎和肺癌等。同時，術(shù)后咳嗽也是多種胸外科手術(shù)的術(shù)后并發(fā)癥之一?？人灶l率、強(qiáng)度等指標(biāo)與患者疾病的嚴(yán)重程度和患者術(shù)后身體情況相關(guān)，因此可以將咳嗽作為衡量疾病情況，手術(shù)效果、患者術(shù)后康復(fù)情況的潛在指標(biāo)。傳統(tǒng)的咳嗽檢測方法通常依賴于醫(yī)生的聽診和經(jīng)驗判斷和咳嗽評估量表，但這種方法在實際應(yīng)用中，過于依賴于患者的主觀感受，不同個體對咳嗽的頻率、強(qiáng)度、持續(xù)時間以及伴隨癥狀感受和描述可能存在差異，這可能導(dǎo)致評估結(jié)果的主觀性和不一致性。

2、近年來，隨著生物醫(yī)學(xué)技術(shù)的不斷進(jìn)步，自動咳嗽識別技術(shù)得到了快速發(fā)展。尤其在呼吸道傳染病流行期間擁有著高速發(fā)展的機(jī)遇。大量的學(xué)者嘗試基于通過生物醫(yī)學(xué)信號(如聲音、振動、加速度、心電圖等)，從這些信號中提取出能夠區(qū)分不同信號的特征，并使用這些特征通過構(gòu)建人工智能的模型，來量化甚至分類咳嗽事件的發(fā)生。這對咳嗽自動識別的發(fā)展起到了很有效的幫助。使得咳嗽的監(jiān)測方法經(jīng)歷了從傳統(tǒng)聽診到信號處理及機(jī)器學(xué)習(xí)技術(shù)的演變。

3、音頻信號在諸多信號中具有穩(wěn)定性、精準(zhǔn)性，非侵入性等特性，并且易于采集和處理，在咳嗽檢測中具有諸多優(yōu)勢。因此對咳嗽音頻的識別是一種可以大規(guī)模投入使用的主流方法。在基于音頻信號識別技術(shù)的咳嗽監(jiān)測方法中，技術(shù)核心是提取聲學(xué)特征并構(gòu)建特征向量，然后用人工智能方法對特征進(jìn)行分類來識別咳嗽聲音。但是對于音頻也面臨音頻信號的多樣性、噪聲干擾以及不同個體之間的差異性等挑戰(zhàn)。為了解決對音頻信號進(jìn)行識別的問題，有很多現(xiàn)有的成熟方法。例如使用梅爾倒譜系數(shù)(mfcc)特征或時域頻域特征來實現(xiàn)音頻的分類任務(wù)。對音頻分類的準(zhǔn)確性高度依賴于特征維度來尋求特征的獨特性和冗余度之間的平衡。過少的特征往往會導(dǎo)致對模型預(yù)測貢獻(xiàn)度高的特征缺失，而過多的特征可能會導(dǎo)致很多對模型性能沒有貢獻(xiàn)的特征過多。而確定最佳特征是一項復(fù)雜而耗時的工作。

4、同時，在咳嗽音頻信號采集的過程中，往往是在復(fù)雜環(huán)境中進(jìn)行的。其中非咳嗽聲音包含各種各樣的聲音，比如儀器聲，說話聲，清嗓子聲等。同時，不同的人群會發(fā)出能量有強(qiáng)有弱，音調(diào)有高有低的咳嗽。以上情況會在聲音樣本特征數(shù)據(jù)中引入很多異常值和噪聲，降低特征的純凈度。

技術(shù)實現(xiàn)思路

1、本發(fā)明針對于實現(xiàn)咳嗽的量化，解決咳嗽聲音識別過程中聲音數(shù)據(jù)噪聲特征過多和異常特征的問題，提出了一種基于pso-gbdt-lr模型的咳嗽聲音識別方法，通過更準(zhǔn)確地區(qū)分咳嗽音和非咳嗽音來量化咳嗽。

2、本發(fā)明采用的技術(shù)方案是：一種基于pso-gbdt-lr模型的咳嗽聲音識別方法，包括如下步驟：

3、步驟1：采集音頻信號；

4、步驟2：使用berouti譜減法對音頻信號進(jìn)行去噪，獲得去噪后的音頻信號；

5、步驟3：音頻事件檢測vad，對去噪后的音頻信號中出現(xiàn)聲音的部分進(jìn)行分割，得到單獨的音頻樣本；

6、步驟4：對步驟3分割出的每個音頻樣本，提取7維時域特征；

7、步驟5：對步驟3分割出每個音頻樣本進(jìn)行短時傅里葉變換stft，從頻譜中提取2維頻域特征；

8、步驟6：將步驟4提取到的7維時域特征和步驟5提取到的2維頻域特征組合，形成9維特征向量組合；

9、步驟7：對步驟3中得到的所有音頻樣本進(jìn)行標(biāo)記，將咳嗽音頻樣本的特征向量標(biāo)記為1類，非咳嗽音頻樣本的特征向量記為0類；

10、步驟8：建立分類模型；

11、步驟9：gbdt-lr模型評估；

12、步驟10：將1-accuracy作為優(yōu)化目標(biāo)，將決策樹n_estimators、學(xué)習(xí)率learning_rate、最大深度max_depth、最大迭代次數(shù)max_iter作為gbdt-lr模型的待優(yōu)化參數(shù)，采用粒子群優(yōu)化算法pso調(diào)整超參數(shù)的值，以實現(xiàn)1-accuracy的最小化。

13、步驟1具體為：將音頻采集設(shè)備的麥克風(fēng)夾持在衣領(lǐng)上，保證距離口腔30厘米的范圍內(nèi)，保存采集后的音頻信號。

14、步驟2具體為：

15、步驟2.1：將原始音頻信號分幀，假設(shè)音頻信號的前幾幀只有背景音，則對前幾幀進(jìn)行短時傅里葉變換stft，計算噪聲譜的平均值得到平均噪聲譜

16、步驟2.2：對原始音頻信號的每一幀都進(jìn)行短時傅里葉變換，得到原始音頻的信號譜y(ω)；

17、步驟2.3：用原始音頻的信號譜y(ω)減去平均噪聲譜得到去噪后的信號譜

18、步驟2.4：通過對進(jìn)行逆傅里葉變換重構(gòu)時域信號，重構(gòu)后的時域信號即為去噪后的音頻信號。

19、步驟3具體為：

20、步驟3.1計算去噪后音頻信號每幀的短時能量和短時過零率，得到短時過零率和短時能量的離散值，這些離散值被平滑處理，得到包絡(luò)曲線；

21、步驟3.2假設(shè)初始靜音段干凈穩(wěn)定，將靜音段的平均短時能量和平均短時過零率分別與經(jīng)驗系數(shù)相乘，得到短時能量閾值和短時過零率閾值；

22、步驟3.3計算短時能量閾值與包絡(luò)線的交點，確定兩邊低中間高的區(qū)域，得到語音起點和終點的粗略值；

23、步驟3.4從粗略起點向前搜索，粗略終點向后搜索，計算短時過零率包絡(luò)線與短時過零率閾值的交點，得到精確起始點和精確結(jié)束點，通過精確起始點和精確結(jié)束點，對去噪后音頻信號中出現(xiàn)明顯聲音的部分進(jìn)行分割。

24、步驟4中提取的時域特征為：

25、最大值：max(s)

26、其中，s是分割出的音頻樣本信號的樣本值序列；

27、能量：

28、其中，si是分割出的音頻樣本信號第i個樣本值，n是采樣點的數(shù)量，下同；

29、均值：

30、方差

31、其中，μ是均值，下同；

32、偏度：

33、其中，σ是標(biāo)準(zhǔn)差，下同；

34、峭度：

35、峰值因子：

36、其中，mean是均值。

37、步驟5中提取的頻域特征為：

38、頻譜質(zhì)心：

39、其中，f是頻率，s(f)在f處的功率譜密度；

40、頻譜平坦度：

41、其中，xy是是分割出的音頻樣本信號在第y個頻域中的幅值，n是頻域的采樣數(shù)。

42、步驟8具體為：

43、步驟8.1：將標(biāo)記好的特征向量組合作為訓(xùn)練集輸入到gbdt模型；

44、gbdt使用損失函數(shù)的負(fù)梯度作為殘差的近似值，使用gbdt進(jìn)行二分類時，損失函數(shù)為對數(shù)似然函數(shù)

45、

46、其中yi為第i個樣本的真實標(biāo)簽(0或1)，為gbdt對第i個樣本的預(yù)測概率，殘差為rz,i，是對損失函數(shù)求負(fù)梯度，公式如下所示：

47、

48、其中，為gbdt在z-1次迭代中對樣本的預(yù)測值，訓(xùn)練好的gbdt會為每個樣本落在每棵樹上的位置生成葉子節(jié)點索引；

49、步驟8.2：每個樣本生成的葉子節(jié)點索引都被進(jìn)行one-hot編碼；

50、步驟8.3：每個樣本進(jìn)行one-hot編碼后的數(shù)據(jù)，與原始的9維特征向量組合合并；

51、步驟8.4：將合并后的特征向量輸入到邏輯回歸lr模型中進(jìn)行訓(xùn)練，得到gbdt-lr模型；

52、在lr模型中，(的值介于0和1之間)是一個sigmoid函數(shù)，sigmoid函數(shù)用于表示二元分類的概率，如果超過0.5，則將樣本歸類為正類，否則就歸為負(fù)類，z＝w·xt+b＝w1x1+w2x2+…+wnxn+b是線性組合，其中為輸入特征向量，為權(quán)重向量，b為偏置量，該模型的核心思想是利用梯度下降法對w和b進(jìn)行迭代更新，使損失函數(shù)j(w,b)最小化，對于二分類問題，損失函數(shù)定義為：

53、

54、其中yi為第i個樣本的真實標(biāo)簽(0或1)，為lr對第i個樣本的預(yù)測概率，m為樣本總數(shù)；

55、步驟8.5：將訓(xùn)練好的gbdt-lr模型，對測試集樣本的9維特征向量進(jìn)行驗證，得到準(zhǔn)確率accuracy。

56、步驟9具體為：

57、在醫(yī)院、宿舍和實驗室為不同的受試者分配設(shè)備進(jìn)行數(shù)據(jù)采集，該數(shù)據(jù)集包含約270個咳嗽事件和290個非咳嗽事件，受試者在正常工作和生活時隨機(jī)咳嗽、呼氣、清喉嚨和說話，為了盡可能清晰地收集信號，麥克風(fēng)放置在距離口腔30厘米的范圍內(nèi)，夾在衣領(lǐng)上；

58、為了評價咳嗽識別模型的性能，將“預(yù)測為咳嗽的咳嗽樣本”定義為真陽性tp，將“預(yù)測為非咳嗽的咳嗽樣本”定義為假陰性fn，將“預(yù)測為非咳嗽的非咳嗽樣本”定義為真陰性tn，將“預(yù)測為咳嗽的非咳嗽樣本”定義為假陽性fp，并將準(zhǔn)確率accuracy、精度precision、召回率recall和f1作為評價指標(biāo)；

59、

60、準(zhǔn)確率accuracy表示模型識別總樣本的能力，是模型性能的總體表征；

61、

62、精度precision表示模型對假陽性的控制能力，在咳嗽監(jiān)測中，準(zhǔn)確度高意味著誤判少；

63、

64、召回率recall表示模型中識別陽性樣本的比例，在咳嗽監(jiān)測中，高靈敏度意味著更少的漏診：

65、

66、f1評分是precision和recall的調(diào)和平均值，它反映了模型在類別數(shù)量不平衡的數(shù)據(jù)集中的性能；

67、接收者操作特征曲線roc和曲線下面積auc來評估模型的分類性能，roc曲線以真陽性率tpr為縱軸，假陽性率fpr為橫軸繪制，auc的取值范圍是0～1。

68、步驟10中pso算法的參數(shù)如下：w為0.8，c1和c2為1，到達(dá)40次迭代自動退出循環(huán)，其中w為慣性權(quán)值，c1和c2是學(xué)習(xí)因子，分別代表個體學(xué)習(xí)能力和群體學(xué)習(xí)能力。

69、本發(fā)明的有益效果是：

70、(1)本發(fā)明通過對音頻信號實現(xiàn)去噪，大幅提升了音頻信號的信噪比，不僅提升了音頻信號的信噪比，降低了噪聲對特征提取的干擾。同時，提升了事件檢測(vad)的精度。

71、(2)本發(fā)明僅使用了共9維特征和270個咳嗽和290個非咳嗽樣本，可以較為精確的區(qū)分咳嗽與非咳嗽聲音，同時避免了使用mfcc復(fù)雜的調(diào)參過程，并且不需要提取mfcc特征過程中，預(yù)加重，分幀，加窗，濾波等操作。整個方法流程中，可以實現(xiàn)計算量小，樣本容量小的優(yōu)點。

72、(3)本發(fā)明通過融合gbdt和lr，結(jié)合了gbdt特征學(xué)習(xí)能力強(qiáng)和lr處理異常值和噪聲數(shù)據(jù)時更加穩(wěn)健且不易過擬合的優(yōu)點。不僅可以精確區(qū)分咳嗽與非咳嗽聲音的特征，還有較強(qiáng)的泛化能力。使得模型在新數(shù)據(jù)上表現(xiàn)同樣出色。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：邢亞珊,吳晨書,彭俊,李根根,高貫斌
技術(shù)所有人：昆明理工大學(xué)
我是此專利的發(fā)明人

上一篇：基于飲品膠囊的萃取杯的制作方法
下一篇：一種弱電工程設(shè)備安裝架的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

99久久精品国产一区二区狐狸,99福利在线观看,国产精品毛片在线,成人影院亚洲,日韩精品第一,天天躁日日躁性色aⅴ电影,午夜毛片网

一種基于PSO-GBDT-LR模型的咳嗽聲音識別方法