99久久精品国产一区二区狐狸,99福利在线观看,国产精品毛片在线,成人影院亚洲,日韩精品第一,天天躁日日躁性色aⅴ电影,午夜毛片网

一種基于PSO-GBDT-LR模型的咳嗽聲音識別方法

文檔序號:42587989發(fā)布日期:2025-07-29 17:40閱讀:12來源:國知局

本發(fā)明涉及一種基于pso-gbdt-lr模型的咳嗽聲音識別方法,屬于信號識別。


背景技術(shù):

1、咳嗽是很多呼吸系統(tǒng)疾病的主要癥狀,如上呼吸道感染、支氣管炎和肺癌等。同時,術(shù)后咳嗽也是多種胸外科手術(shù)的術(shù)后并發(fā)癥之一??人灶l率、強(qiáng)度等指標(biāo)與患者疾病的嚴(yán)重程度和患者術(shù)后身體情況相關(guān),因此可以將咳嗽作為衡量疾病情況,手術(shù)效果、患者術(shù)后康復(fù)情況的潛在指標(biāo)。傳統(tǒng)的咳嗽檢測方法通常依賴于醫(yī)生的聽診和經(jīng)驗判斷和咳嗽評估量表,但這種方法在實際應(yīng)用中,過于依賴于患者的主觀感受,不同個體對咳嗽的頻率、強(qiáng)度、持續(xù)時間以及伴隨癥狀感受和描述可能存在差異,這可能導(dǎo)致評估結(jié)果的主觀性和不一致性。

2、近年來,隨著生物醫(yī)學(xué)技術(shù)的不斷進(jìn)步,自動咳嗽識別技術(shù)得到了快速發(fā)展。尤其在呼吸道傳染病流行期間擁有著高速發(fā)展的機(jī)遇。大量的學(xué)者嘗試基于通過生物醫(yī)學(xué)信號(如聲音、振動、加速度、心電圖等),從這些信號中提取出能夠區(qū)分不同信號的特征,并使用這些特征通過構(gòu)建人工智能的模型,來量化甚至分類咳嗽事件的發(fā)生。這對咳嗽自動識別的發(fā)展起到了很有效的幫助。使得咳嗽的監(jiān)測方法經(jīng)歷了從傳統(tǒng)聽診到信號處理及機(jī)器學(xué)習(xí)技術(shù)的演變。

3、音頻信號在諸多信號中具有穩(wěn)定性、精準(zhǔn)性,非侵入性等特性,并且易于采集和處理,在咳嗽檢測中具有諸多優(yōu)勢。因此對咳嗽音頻的識別是一種可以大規(guī)模投入使用的主流方法。在基于音頻信號識別技術(shù)的咳嗽監(jiān)測方法中,技術(shù)核心是提取聲學(xué)特征并構(gòu)建特征向量,然后用人工智能方法對特征進(jìn)行分類來識別咳嗽聲音。但是對于音頻也面臨音頻信號的多樣性、噪聲干擾以及不同個體之間的差異性等挑戰(zhàn)。為了解決對音頻信號進(jìn)行識別的問題,有很多現(xiàn)有的成熟方法。例如使用梅爾倒譜系數(shù)(mfcc)特征或時域頻域特征來實現(xiàn)音頻的分類任務(wù)。對音頻分類的準(zhǔn)確性高度依賴于特征維度來尋求特征的獨特性和冗余度之間的平衡。過少的特征往往會導(dǎo)致對模型預(yù)測貢獻(xiàn)度高的特征缺失,而過多的特征可能會導(dǎo)致很多對模型性能沒有貢獻(xiàn)的特征過多。而確定最佳特征是一項復(fù)雜而耗時的工作。

4、同時,在咳嗽音頻信號采集的過程中,往往是在復(fù)雜環(huán)境中進(jìn)行的。其中非咳嗽聲音包含各種各樣的聲音,比如儀器聲,說話聲,清嗓子聲等。同時,不同的人群會發(fā)出能量有強(qiáng)有弱,音調(diào)有高有低的咳嗽。以上情況會在聲音樣本特征數(shù)據(jù)中引入很多異常值和噪聲,降低特征的純凈度。


技術(shù)實現(xiàn)思路

1、本發(fā)明針對于實現(xiàn)咳嗽的量化,解決咳嗽聲音識別過程中聲音數(shù)據(jù)噪聲特征過多和異常特征的問題,提出了一種基于pso-gbdt-lr模型的咳嗽聲音識別方法,通過更準(zhǔn)確地區(qū)分咳嗽音和非咳嗽音來量化咳嗽。

2、本發(fā)明采用的技術(shù)方案是:一種基于pso-gbdt-lr模型的咳嗽聲音識別方法,包括如下步驟:

3、步驟1:采集音頻信號;

4、步驟2:使用berouti譜減法對音頻信號進(jìn)行去噪,獲得去噪后的音頻信號;

5、步驟3:音頻事件檢測vad,對去噪后的音頻信號中出現(xiàn)聲音的部分進(jìn)行分割,得到單獨的音頻樣本;

6、步驟4:對步驟3分割出的每個音頻樣本,提取7維時域特征;

7、步驟5:對步驟3分割出每個音頻樣本進(jìn)行短時傅里葉變換stft,從頻譜中提取2維頻域特征;

8、步驟6:將步驟4提取到的7維時域特征和步驟5提取到的2維頻域特征組合,形成9維特征向量組合;

9、步驟7:對步驟3中得到的所有音頻樣本進(jìn)行標(biāo)記,將咳嗽音頻樣本的特征向量標(biāo)記為1類,非咳嗽音頻樣本的特征向量記為0類;

10、步驟8:建立分類模型;

11、步驟9:gbdt-lr模型評估;

12、步驟10:將1-accuracy作為優(yōu)化目標(biāo),將決策樹n_estimators、學(xué)習(xí)率learning_rate、最大深度max_depth、最大迭代次數(shù)max_iter作為gbdt-lr模型的待優(yōu)化參數(shù),采用粒子群優(yōu)化算法pso調(diào)整超參數(shù)的值,以實現(xiàn)1-accuracy的最小化。

13、步驟1具體為:將音頻采集設(shè)備的麥克風(fēng)夾持在衣領(lǐng)上,保證距離口腔30厘米的范圍內(nèi),保存采集后的音頻信號。

14、步驟2具體為:

15、步驟2.1:將原始音頻信號分幀,假設(shè)音頻信號的前幾幀只有背景音,則對前幾幀進(jìn)行短時傅里葉變換stft,計算噪聲譜的平均值得到平均噪聲譜

16、步驟2.2:對原始音頻信號的每一幀都進(jìn)行短時傅里葉變換,得到原始音頻的信號譜y(ω);

17、步驟2.3:用原始音頻的信號譜y(ω)減去平均噪聲譜得到去噪后的信號譜

18、步驟2.4:通過對進(jìn)行逆傅里葉變換重構(gòu)時域信號,重構(gòu)后的時域信號即為去噪后的音頻信號。

19、步驟3具體為:

20、步驟3.1計算去噪后音頻信號每幀的短時能量和短時過零率,得到短時過零率和短時能量的離散值,這些離散值被平滑處理,得到包絡(luò)曲線;

21、步驟3.2假設(shè)初始靜音段干凈穩(wěn)定,將靜音段的平均短時能量和平均短時過零率分別與經(jīng)驗系數(shù)相乘,得到短時能量閾值和短時過零率閾值;

22、步驟3.3計算短時能量閾值與包絡(luò)線的交點,確定兩邊低中間高的區(qū)域,得到語音起點和終點的粗略值;

23、步驟3.4從粗略起點向前搜索,粗略終點向后搜索,計算短時過零率包絡(luò)線與短時過零率閾值的交點,得到精確起始點和精確結(jié)束點,通過精確起始點和精確結(jié)束點,對去噪后音頻信號中出現(xiàn)明顯聲音的部分進(jìn)行分割。

24、步驟4中提取的時域特征為:

25、最大值:max(s)

26、其中,s是分割出的音頻樣本信號的樣本值序列;

27、能量:

28、其中,si是分割出的音頻樣本信號第i個樣本值,n是采樣點的數(shù)量,下同;

29、均值:

30、方差

31、其中,μ是均值,下同;

32、偏度:

33、其中,σ是標(biāo)準(zhǔn)差,下同;

34、峭度:

35、峰值因子:

36、其中,mean是均值。

37、步驟5中提取的頻域特征為:

38、頻譜質(zhì)心:

39、其中,f是頻率,s(f)在f處的功率譜密度;

40、頻譜平坦度:

41、其中,xy是是分割出的音頻樣本信號在第y個頻域中的幅值,n是頻域的采樣數(shù)。

42、步驟8具體為:

43、步驟8.1:將標(biāo)記好的特征向量組合作為訓(xùn)練集輸入到gbdt模型;

44、gbdt使用損失函數(shù)的負(fù)梯度作為殘差的近似值,使用gbdt進(jìn)行二分類時,損失函數(shù)為對數(shù)似然函數(shù)

45、

46、其中yi為第i個樣本的真實標(biāo)簽(0或1),為gbdt對第i個樣本的預(yù)測概率,殘差為rz,i,是對損失函數(shù)求負(fù)梯度,公式如下所示:

47、

48、其中,為gbdt在z-1次迭代中對樣本的預(yù)測值,訓(xùn)練好的gbdt會為每個樣本落在每棵樹上的位置生成葉子節(jié)點索引;

49、步驟8.2:每個樣本生成的葉子節(jié)點索引都被進(jìn)行one-hot編碼;

50、步驟8.3:每個樣本進(jìn)行one-hot編碼后的數(shù)據(jù),與原始的9維特征向量組合合并;

51、步驟8.4:將合并后的特征向量輸入到邏輯回歸lr模型中進(jìn)行訓(xùn)練,得到gbdt-lr模型;

52、在lr模型中,(的值介于0和1之間)是一個sigmoid函數(shù),sigmoid函數(shù)用于表示二元分類的概率,如果超過0.5,則將樣本歸類為正類,否則就歸為負(fù)類,z=w·xt+b=w1x1+w2x2+…+wnxn+b是線性組合,其中為輸入特征向量,為權(quán)重向量,b為偏置量,該模型的核心思想是利用梯度下降法對w和b進(jìn)行迭代更新,使損失函數(shù)j(w,b)最小化,對于二分類問題,損失函數(shù)定義為:

53、

54、其中yi為第i個樣本的真實標(biāo)簽(0或1),為lr對第i個樣本的預(yù)測概率,m為樣本總數(shù);

55、步驟8.5:將訓(xùn)練好的gbdt-lr模型,對測試集樣本的9維特征向量進(jìn)行驗證,得到準(zhǔn)確率accuracy。

56、步驟9具體為:

57、在醫(yī)院、宿舍和實驗室為不同的受試者分配設(shè)備進(jìn)行數(shù)據(jù)采集,該數(shù)據(jù)集包含約270個咳嗽事件和290個非咳嗽事件,受試者在正常工作和生活時隨機(jī)咳嗽、呼氣、清喉嚨和說話,為了盡可能清晰地收集信號,麥克風(fēng)放置在距離口腔30厘米的范圍內(nèi),夾在衣領(lǐng)上;

58、為了評價咳嗽識別模型的性能,將“預(yù)測為咳嗽的咳嗽樣本”定義為真陽性tp,將“預(yù)測為非咳嗽的咳嗽樣本”定義為假陰性fn,將“預(yù)測為非咳嗽的非咳嗽樣本”定義為真陰性tn,將“預(yù)測為咳嗽的非咳嗽樣本”定義為假陽性fp,并將準(zhǔn)確率accuracy、精度precision、召回率recall和f1作為評價指標(biāo);

59、

60、準(zhǔn)確率accuracy表示模型識別總樣本的能力,是模型性能的總體表征;

61、

62、精度precision表示模型對假陽性的控制能力,在咳嗽監(jiān)測中,準(zhǔn)確度高意味著誤判少;

63、

64、召回率recall表示模型中識別陽性樣本的比例,在咳嗽監(jiān)測中,高靈敏度意味著更少的漏診:

65、

66、f1評分是precision和recall的調(diào)和平均值,它反映了模型在類別數(shù)量不平衡的數(shù)據(jù)集中的性能;

67、接收者操作特征曲線roc和曲線下面積auc來評估模型的分類性能,roc曲線以真陽性率tpr為縱軸,假陽性率fpr為橫軸繪制,auc的取值范圍是0~1。

68、步驟10中pso算法的參數(shù)如下:w為0.8,c1和c2為1,到達(dá)40次迭代自動退出循環(huán),其中w為慣性權(quán)值,c1和c2是學(xué)習(xí)因子,分別代表個體學(xué)習(xí)能力和群體學(xué)習(xí)能力。

69、本發(fā)明的有益效果是:

70、(1)本發(fā)明通過對音頻信號實現(xiàn)去噪,大幅提升了音頻信號的信噪比,不僅提升了音頻信號的信噪比,降低了噪聲對特征提取的干擾。同時,提升了事件檢測(vad)的精度。

71、(2)本發(fā)明僅使用了共9維特征和270個咳嗽和290個非咳嗽樣本,可以較為精確的區(qū)分咳嗽與非咳嗽聲音,同時避免了使用mfcc復(fù)雜的調(diào)參過程,并且不需要提取mfcc特征過程中,預(yù)加重,分幀,加窗,濾波等操作。整個方法流程中,可以實現(xiàn)計算量小,樣本容量小的優(yōu)點。

72、(3)本發(fā)明通過融合gbdt和lr,結(jié)合了gbdt特征學(xué)習(xí)能力強(qiáng)和lr處理異常值和噪聲數(shù)據(jù)時更加穩(wěn)健且不易過擬合的優(yōu)點。不僅可以精確區(qū)分咳嗽與非咳嗽聲音的特征,還有較強(qiáng)的泛化能力。使得模型在新數(shù)據(jù)上表現(xiàn)同樣出色。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1