99久久精品国产一区二区狐狸,99福利在线观看,国产精品毛片在线,成人影院亚洲,日韩精品第一,天天躁日日躁性色aⅴ电影,午夜毛片网

一種基于偽標簽學習的安全補丁分類方法及系統(tǒng)

文檔序號:42300914發(fā)布日期:2025-06-27 18:43閱讀:22來源:國知局

本技術屬于漏洞類型分類領域,更具體地,涉及一種基于偽標簽學習的安全補丁分類方法及系統(tǒng)。


背景技術:

1、在當前的軟件工程領域,開源軟件已被廣泛應用于商業(yè)/非商業(yè)產(chǎn)品的軟件供應鏈中。與此同時,開源軟件的漏洞也被廣泛傳播,下游開源軟件用戶需要及時發(fā)現(xiàn)并修復上游開源軟件中的漏洞。在漏洞修復過程中,漏洞類型信息十分重要,它可以幫助開發(fā)者了解漏洞的根本原因、可能的影響和要部署的緩解措施類型。因此,對安全補丁按照漏洞類型進行分類十分重要。

2、研究者們提出了許多方法來進行安全補丁的分類,其中,基于深度學習的方法因其能夠自動從代碼中提取特征、識別復雜模式而引起了廣泛關注。這些方法在安全補丁漏洞類型的分類中取得了一定的進展,尤其是在減少人工干預和提高分類效率方面,顯示了其強大的潛力。然而,盡管基于深度學習的技術取得了一定的成果,其分類性能仍然存在一定的局限性,主要原因在于缺乏高質(zhì)量的訓練數(shù)據(jù),但當前的標注數(shù)據(jù)集的獲取存在不少挑戰(zhàn)。

3、一方面,人工代碼審查往往需要具備深厚的專家知識,不僅時間成本高,而且容易受到人為偏差的影響。另一方面,利用現(xiàn)有的靜態(tài)分析工具生成標注數(shù)據(jù)集雖然在一定程度上能夠加速標注過程,但其生成的數(shù)據(jù)存在較高的誤報率,進一步影響了數(shù)據(jù)的質(zhì)量和模型的訓練效果。

4、因此,在當前的深度學習方法中,如何利用無標簽數(shù)據(jù)進行有效學習,克服標注數(shù)據(jù)不足的瓶頸,提高分類的準確性和魯棒性,是當前技術中亟待解決的關鍵問題。


技術實現(xiàn)思路

1、針對現(xiàn)有技術的缺陷,本技術的目的在于提供一種基于偽標簽學習的安全補丁分類方法及系統(tǒng),旨在解決目前安全補丁漏洞類型分類準確率不高的問題。

2、為實現(xiàn)上述目的,第一方面,本技術提供了一種基于偽標簽學習的安全補丁分類方法,包括:

3、獲取待分類的安全補??;

4、對所述安全補丁進行特征提取,得到關鍵語義特征;

5、將所述關鍵語義特征輸入到訓練好的安全補丁模型中,得到所述安全補丁的分類結果;

6、其中,所述安全補丁模型是通過對安全相關補丁數(shù)據(jù)集和無標簽補丁數(shù)據(jù)集進行關鍵語義信息提取,并根據(jù)所述關鍵語義信息進行偽標簽學習得到的。

7、可選地,所述安全補丁模型的獲取方法包括:

8、排除與安全無關的修復內(nèi)容,提取與漏洞相關的關鍵變量,并利用代碼切片技術結合數(shù)據(jù)流分析確定漏洞觸發(fā)點,根據(jù)關鍵變量和漏洞觸發(fā)點整合為關鍵語義信息;

9、利用有標簽安全補丁的訓練集訓練得到初始教師模型,利用初始教師模型為無標簽安全補丁生成偽標簽,通過共識算法結合所述關鍵語義信息篩選出高質(zhì)量偽標簽樣本并加入有標簽安全補丁的訓練集對初始教師模型進行迭代訓練,直至得到訓練好的安全補丁分類模型。

10、可選地,所述關鍵語義信息提取的過程具體包括:

11、分析所述安全相關補丁數(shù)據(jù)集的補丁的代碼修改,標注代碼修改塊是否與安全修復相關,得到候選樣本集;

12、利用相似補丁檢索法從候選樣本集中選取安全相關補丁數(shù)據(jù)集的輸入補丁的相似樣本,根據(jù)所述相似樣本構造少樣本提示;

13、利用大語言模型根據(jù)所述少樣本提示排除安全補丁中與漏洞無關的代碼修改塊;

14、對安全補丁的代碼修改進行分析總結修補特征,根據(jù)修補類型和修補行類型設計提取規(guī)則,利用所述提取規(guī)則提取代碼修改中的關鍵變量;

15、根據(jù)不同的漏洞類型制定相應的漏洞觸發(fā)點規(guī)則,基于所述關鍵變量和漏洞觸發(fā)點規(guī)則進行數(shù)據(jù)流分析,直至分析到達預設深度,得到符合所述漏洞觸發(fā)點規(guī)則的代碼數(shù)據(jù);

16、根據(jù)所述代碼數(shù)據(jù)、關鍵變量以及代碼數(shù)據(jù)和關鍵變量之間的數(shù)據(jù)流,確定漏洞相關代碼以作為所述關鍵語義信息。

17、可選地,所述安全補丁分類模型的訓練過程包括:

18、確定所述初始教師模型包括代碼修改分類模型和文本描述分類模型;

19、利用標注了漏洞類型標簽的安全補丁代碼修改訓練代碼修改分類模型,利用標注了漏洞類型標簽的安全補丁文本描述訓練文本描述分類模型;

20、分別利用代碼修改分類模型和文本描述分類模型為無標簽安全補丁的進行代碼修改預測和文本描述預測,生成偽標簽;

21、采用基于代碼修改和文本描述的共識算法并結合關鍵語義信息,對生成的偽標簽進行確認,篩選得到高質(zhì)量的偽標簽樣本,加入有標簽安全補丁的訓練集,對初始教師模型進行迭代訓練,直至得到訓練好的安全補丁分類模型。

22、可選地,所述數(shù)據(jù)流分析的過程包括:

23、構建代碼的數(shù)據(jù)流圖;

24、在所述數(shù)據(jù)流圖中定位所述關鍵變量的目標節(jié)點;

25、從所述目標節(jié)點出發(fā)遍歷以匹配漏洞觸發(fā)點,在遇到函數(shù)調(diào)用語句的情況下調(diào)整到被調(diào)用函數(shù)的程序依賴圖并繼續(xù)遍歷,直至到達預設深度,得到符合所述漏洞觸發(fā)點規(guī)則的代碼數(shù)據(jù)。

26、可選地,所述初始教師模型訓練過程的損失函數(shù)的計算方法包括:

27、計算有標簽安全補丁的預測值和實際標簽之間的第一損失;

28、計算偽標簽樣本的預測值和偽標簽之間的第二損失;

29、將所述第一損失和第二損失的加權和作為模型訓練的總損失。

30、可選地,偽標簽的獲取過程包括:

31、對安全補丁的文本描述和代碼修改的預測結果進行概率排序,分別選取前k個類別;

32、若前k個類別中存在相同類別,則選擇具有最大平均概率的類別作為偽標簽;若前k個類別中不存在相同類別,將當前樣本丟棄。

33、第二方面,本技術還提供一種基于偽標簽學習的安全補丁分類系統(tǒng),包括:

34、獲取模塊,用于獲取待分類的安全補?。?/p>

35、特征提取模塊,用于對所述安全補丁進行特征提取,得到關鍵語義特征;

36、分類模塊,用于將所述關鍵語義特征輸入到訓練好的安全補丁模型中,得到所述安全補丁的分類結果;

37、其中,所述安全補丁模型是通過對安全相關補丁數(shù)據(jù)集和無標簽補丁數(shù)據(jù)集進行關鍵語義信息提取,并根據(jù)所述關鍵語義信息進行偽標簽學習得到的。

38、可選地,所述安全補丁模型包括:

39、關鍵語義信息提取模塊,用于排除與安全無關的修復內(nèi)容,提取與漏洞相關的關鍵變量,并利用代碼切片技術結合數(shù)據(jù)流分析確定漏洞觸發(fā)點,根據(jù)關鍵變量和漏洞觸發(fā)點整合為關鍵語義信息;

40、偽標簽學習模塊,用于利用有標簽安全補丁的訓練集訓練得到初始教師模型,利用初始教師模型為無標簽安全補丁生成偽標簽,通過共識算法結合所述關鍵語義信息篩選出高質(zhì)量偽標簽樣本并加入有標簽安全補丁的訓練集對初始教師模型進行迭代訓練,直至得到訓練好的安全補丁分類模型。

41、第三方面,本技術提供一種電子設備,包括:至少一個存儲器,用于存儲程序;至少一個處理器,用于執(zhí)行存儲器存儲的程序,當存儲器存儲的程序被執(zhí)行時,處理器用于執(zhí)行第一方面或第一方面的任一種可能的實現(xiàn)方式所描述的方法。

42、第四方面,本技術提供一種計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)存儲有計算機程序,當計算機程序在處理器上運行時,使得處理器執(zhí)行第一方面或第一方面的任一種可能的實現(xiàn)方式所描述的方法。

43、第五方面,本技術提供一種計算機程序產(chǎn)品,當計算機程序產(chǎn)品在處理器上運行時,使得處理器執(zhí)行第一方面或第一方面的任一種可能的實現(xiàn)方式所描述的方法。

44、可以理解的是,上述第二方面至第五方面的有益效果可以參見上述第一方面中的相關描述,在此不再贅述。

45、總體而言,通過本技術所構思的以上技術方案與現(xiàn)有技術相比,具有以下有益效果:

46、(1)本技術通過利用有標簽的安全補丁數(shù)據(jù)集以及無標簽補丁數(shù)據(jù)集生成偽標簽,能夠在數(shù)據(jù)量有限的情況下擴展訓練集,從而顯著提升分類模型的學習效果和準確性。結合關鍵語義信息的學習,模型能夠更好地理解和分類補丁的特性,尤其是與漏洞修復高度相關的變量。本技術通過精細化的訓練方式提高模型在真實場景中對安全補丁的分類有效性,提高安全補丁的分類準確率和魯棒性。

47、(2)本技術通過共識算法篩選高質(zhì)量的偽標簽樣本,通過從不同來源的補丁中提取關鍵特征,結合相似度檢索與少樣本提示,增加了訓練數(shù)據(jù)的多樣性,使得模型能夠應對更復雜的補丁形式和修復類型。在有效增強模型泛化能力的同時,能夠降低過擬合的風險。

48、(3)本技術通過自動提取關鍵語義特征,利用代碼切片技術和數(shù)據(jù)流分析來識別漏洞觸發(fā)點,實現(xiàn)了補丁分類過程的自動化。自動化的提取與確認過程不僅降低了人工干預的需求,還大幅提高了處理速度與效率。相比傳統(tǒng)的手動標注過程,模型訓練和偽標簽生成的快速迭代使得整個補丁分類的工作流更加高效,能夠在短時間內(nèi)適應快速變化的安全環(huán)境,提高了整體的反應能力。

49、(4)本技術通過提取與漏洞類型高度相關的關鍵語義信息作為模型輸入樣本,從而顯著提高了樣本質(zhì)量,使得模型更容易學習到漏洞類型的特征。相比于傳統(tǒng)的偽標簽學習方法,本技術采用基于補丁文本和代碼修改的共識算法來篩選偽標簽樣本,在保證了偽標簽準確性的同時也保證了偽標簽樣本數(shù)量充足。本技術的偽標簽學習模塊可與現(xiàn)有基于深度學習的安全補丁分類方法結合,進一步增強其分類效果。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1