本發(fā)明涉及生物信息學(xué)領(lǐng)域,具體為一種基于深度領(lǐng)域?qū)箤W(xué)習(xí)框架的人類重要microrna識(shí)別方法。
背景技術(shù):
1、microrna(mirna)是一類長(zhǎng)度約22個(gè)核苷酸的單鏈非編碼rna分子,它能通過(guò)與信使rna結(jié)合,抑制其翻譯或促進(jìn)其降解,進(jìn)而在轉(zhuǎn)錄后水平對(duì)基因表達(dá)進(jìn)行調(diào)控。大量研究表明,mirna廣泛參與動(dòng)植物細(xì)胞的發(fā)育、增殖、代謝、分化和死亡等一系列關(guān)鍵生物學(xué)過(guò)程,并且與癌癥等復(fù)雜疾病的發(fā)生和發(fā)展密切相關(guān)。另外,部分mirna家族的敲除會(huì)導(dǎo)致各種異常表型,表明這些mirna在多細(xì)胞生物的生長(zhǎng)和發(fā)育過(guò)程中起著至關(guān)重要的作用。例如,當(dāng)敲除mir-199a-2時(shí),小鼠腦中雷帕霉素靶蛋白(mtor)的活性會(huì)下降,并出現(xiàn)多種rett綜合征相關(guān)表型;缺失mir-181家族后,小鼠胸腺和外周自然殺傷t細(xì)胞會(huì)缺失;而敲除mir-451則會(huì)干擾小鼠紅細(xì)胞的生成,最終導(dǎo)致貧血癥狀。這些實(shí)例充分證明,特定mirna在多細(xì)胞生物發(fā)育和穩(wěn)態(tài)維持方面發(fā)揮不可替代的作用。準(zhǔn)確識(shí)別人類mirna中的關(guān)鍵分子,對(duì)于深入探究它們?cè)趶?fù)雜生物過(guò)程和疾病中的功能具有重要意義。目前,已發(fā)現(xiàn)的mirna數(shù)量眾多,從這些mirna中精準(zhǔn)識(shí)別出重要的分子,有助于縮小研究范圍,提高研究效率。
2、然而,傳統(tǒng)的mirna重要性鑒定方法主要依賴于生物敲除實(shí)驗(yàn),這類實(shí)驗(yàn)不僅成本高昂、周期長(zhǎng),而且由于倫理和技術(shù)等方面的限制,難以直接應(yīng)用于人類研究。因此,開發(fā)高效的計(jì)算方法成為識(shí)別重要mirna的必要策略。利用計(jì)算模型來(lái)鑒定人類mirna的重要性,不僅可以突破傳統(tǒng)實(shí)驗(yàn)在倫理與技術(shù)上的限制,還能大幅度提高重要mirna識(shí)別效率。這使得研究人員可以將精力集中在已識(shí)別出的重要的mirna上,從而加速疾病機(jī)制解析與靶點(diǎn)發(fā)現(xiàn)的研究進(jìn)程。
3、在重要mirna識(shí)別的早期,研究人員構(gòu)建了一些生物學(xué)指標(biāo)來(lái)量化mirna的重要性。例如,cui等人利用hmdd?v3.0數(shù)據(jù)庫(kù)中已證實(shí)的人類mirna-疾病關(guān)聯(lián)數(shù)據(jù),計(jì)算了疾病譜寬度(disease?spectrum?width,dsw)分?jǐn)?shù)。該分?jǐn)?shù)的定義是一個(gè)mirna相關(guān)疾病數(shù)量與所有人類mirna相關(guān)疾病總數(shù)之間的比值,dsw分?jǐn)?shù)越高,mirna就越重要。wang等人根據(jù)基因重要性與進(jìn)化保守性呈正相關(guān)的理論,計(jì)算人類mirna的保守性得分,該得分與mirna家族成員數(shù)量成正比,保守評(píng)分越高,mirna越重要。近年來(lái),不少研究聚焦于通過(guò)輸入mirna序列來(lái)預(yù)測(cè)mirna的重要性。song等人開發(fā)了microrna重要性評(píng)分(mies)模型,先建立小鼠mirna重要性識(shí)別的金標(biāo)準(zhǔn)數(shù)據(jù)集,再利用邏輯回歸模型,通過(guò)提取序列特征預(yù)測(cè)重要性評(píng)分。此外,yan等人采用梯度增強(qiáng)機(jī)預(yù)測(cè)小鼠mirna重要性評(píng)分,除序列特征外還額外提取了6個(gè)結(jié)構(gòu)特征和18個(gè)二核苷酸頻率特征,模型精度優(yōu)于mies。wang等人開發(fā)的rfem計(jì)算框架,引入mirna和靶基因相互作用數(shù)據(jù)集計(jì)算mirna功能特征,構(gòu)建多重特征后用旋轉(zhuǎn)森林模型評(píng)估m(xù)irna重要性。還有研究采用了投票方法,整合60種不同分類模型(包括5種分類算法和12種特征提取方法)進(jìn)行預(yù)測(cè)。min等人利用xgboost算法集合5個(gè)基分類器的預(yù)測(cè)結(jié)果,設(shè)計(jì)xgem計(jì)算框架來(lái)預(yù)測(cè)。yan等人基于mirna序列,融合雙向長(zhǎng)短期記憶、多頭自注意機(jī)制和加權(quán)注意機(jī)制,開發(fā)深度學(xué)習(xí)框架進(jìn)行預(yù)測(cè)。總體而言,現(xiàn)有技術(shù)中預(yù)測(cè)小鼠mirna重要性的流程為:以小鼠mirna序列為樣本,設(shè)計(jì)多種特征提取方法獲取特征表示,再用不同的分類器進(jìn)行二元分類預(yù)測(cè),從而識(shí)別重要的mirna。
4、目前仍缺乏有效的計(jì)算模型預(yù)測(cè)人類mirna的重要性,主要原因是人類mirna沒(méi)有真實(shí)的重要性標(biāo)簽?,F(xiàn)有研究多聚焦于開發(fā)小鼠重要mirna識(shí)別模型,識(shí)別人類重要mirna方面的計(jì)算模型仍待探索。雖然已使用dsw評(píng)分、保守性評(píng)分等指標(biāo)來(lái)表征人類mirna的重要性,但由于缺乏人類mirna的重要性標(biāo)簽,采用計(jì)算模型預(yù)測(cè)人類mirna的重要性的研究很少。dsw評(píng)分依賴已知的mirna與疾病關(guān)聯(lián)信息,沒(méi)有關(guān)聯(lián)信息的人類mirna無(wú)法進(jìn)行計(jì)算dsw評(píng)分。最近,cui等人嘗試用已知人類mirna的dsw分?jǐn)?shù)作為人類mirna的重要性標(biāo)簽,建立基于隨機(jī)森林回歸的mic算法預(yù)測(cè)未知dsw分?jǐn)?shù)的人類mirna重要性。但直接將dsw作為真實(shí)標(biāo)簽進(jìn)行建模,缺乏嚴(yán)謹(jǐn)性和可靠性,人類mirna重要性識(shí)別建模面臨巨大挑戰(zhàn)。
5、人和小鼠基因高度同源、親緣關(guān)系相近,小鼠mirna有重要性標(biāo)簽而人類的沒(méi)有,利用遷移學(xué)習(xí)將小鼠領(lǐng)域的標(biāo)注知識(shí)遷移至人類領(lǐng)域,并充分結(jié)合小鼠mirna重要性識(shí)別的現(xiàn)有成果,有望實(shí)現(xiàn)跨物種知識(shí)轉(zhuǎn)移,這一研究思路在理論上具備較高的可行性。然而,傳統(tǒng)領(lǐng)域自適應(yīng)模型難以勝任;由于其結(jié)構(gòu)簡(jiǎn)單,無(wú)法捕捉復(fù)雜數(shù)據(jù)特征;在處理大規(guī)?;蚋呔S度輸入數(shù)據(jù)時(shí)計(jì)算復(fù)雜度較高;對(duì)于初始手工提取的特征,僅用淺層或線性變換處理,特征表示和學(xué)習(xí)能力弱;自適應(yīng)策略單一,主要通過(guò)最大均值差異等度量方法來(lái)對(duì)齊兩域的分布。
6、這些問(wèn)題限制了人類mirna重要性識(shí)別領(lǐng)域建模的發(fā)展。因此有必要開發(fā)出一種新的方法解決這一問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明聚焦于現(xiàn)有技術(shù)的不足,旨在研發(fā)一種新的基于多模態(tài)特征提取器和深度領(lǐng)域自適應(yīng)的融合模型。該模型既能突破傳統(tǒng)領(lǐng)域自適應(yīng)模型在結(jié)構(gòu)與算法上的限制,深度挖掘人和小鼠mirna數(shù)據(jù)中的隱藏特征信息,同時(shí)又能精準(zhǔn)對(duì)齊兩域分布,有效解決人類mirna重要性標(biāo)簽缺失這一關(guān)鍵問(wèn)題。
2、本發(fā)明的第一個(gè)方面提供一種基于深度領(lǐng)域?qū)箤W(xué)習(xí)框架的人類重要mirna識(shí)別方法和框架—deephem,為運(yùn)用計(jì)算方法預(yù)測(cè)人類mirna重要性提供一種新的思路和策略。
3、一種基于深度領(lǐng)域?qū)箤W(xué)習(xí)框架的人類重要mirna識(shí)別方法,包括步驟:
4、s1.數(shù)據(jù)集構(gòu)建:構(gòu)建小鼠和人類mirna重要性基準(zhǔn)數(shù)據(jù)集和mirna-靶基因相互作用數(shù)據(jù)集(mti數(shù)據(jù)集);
5、s2.訓(xùn)練階段分為兩個(gè)關(guān)鍵步驟,一是構(gòu)建多模態(tài)特征提取器進(jìn)行特征提取,二是構(gòu)造損失函數(shù)實(shí)現(xiàn)兩域特征對(duì)齊與模型訓(xùn)練;
6、s3.預(yù)測(cè)階段:將目標(biāo)域數(shù)據(jù)輸入至多模態(tài)特征提取器,得到目標(biāo)域mirna特征表示,再經(jīng)過(guò)標(biāo)簽預(yù)測(cè)器得到預(yù)測(cè)的目標(biāo)域樣本的重要性分?jǐn)?shù);
7、進(jìn)一步地,步驟s2包括步驟s21和步驟s22;
8、s21.通過(guò)構(gòu)建多模態(tài)特征提取器進(jìn)行特征提取,得到源域和目標(biāo)域的特征表示,其中小鼠和人類的數(shù)據(jù)分別視為源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù);
9、s22.基于步驟s21得到的得到源域和目標(biāo)域的特征表示構(gòu)造損失函數(shù)實(shí)現(xiàn)兩域特征對(duì)齊與模型訓(xùn)練;
10、進(jìn)一步地,步驟s21中,所述特征表示由mirna的序列特征表示、固有特征表示和mti特征表示拼接得到;
11、更進(jìn)一步地,步驟s22中,所述損失函數(shù)包括分類損失、coral損失和對(duì)抗損失。
12、進(jìn)一步地,步驟s1中,所述重要性基準(zhǔn)數(shù)據(jù)集獲取自mirbase數(shù)據(jù)庫(kù),包括小鼠和人類mirna的前體及成熟mirna序列;并對(duì)小鼠mirna樣本標(biāo)記出重要mirna作為正樣本,從其余未知mirna樣本中挑選出和重要mirna相同數(shù)目的mirna樣本作為負(fù)樣本;
13、步驟s1中,所述mti數(shù)據(jù)集包括小鼠的mirna與靶基因之間的相互作用,以及人類的mirna和靶基因之間的相互作用;所述mti數(shù)據(jù)集獲取自mirtarbase數(shù)據(jù)庫(kù),剔除具有異常mirna名稱的相互作用和不同實(shí)驗(yàn)文獻(xiàn)證實(shí)的重復(fù)相互作用,以此構(gòu)建mti數(shù)據(jù)集。
14、在一種實(shí)施方式中,從mirbase數(shù)據(jù)庫(kù)中收集到1226個(gè)小鼠mirna和1913個(gè)人類mirna。參考bartel的專業(yè)綜述,在小鼠mirna樣本標(biāo)記出91個(gè)重要mirna,其余1135個(gè)則被視為未知mirna,并從中挑選出91個(gè)非重要mirna。同時(shí),從mirbase數(shù)據(jù)庫(kù)獲取了小鼠和人類所有mirna的前體及成熟mirna序列。
15、在一種實(shí)施方式中,為了進(jìn)一步豐富數(shù)據(jù)維度,利用2025年最新更新的mirtarbase數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)收納了38萬(wàn)多條可直接下載的mti數(shù)據(jù)集,且每條數(shù)據(jù)都經(jīng)過(guò)嚴(yán)格的實(shí)驗(yàn)文獻(xiàn)驗(yàn)證,可信度極高。本發(fā)明通過(guò)剔除具有異常mirna名稱的相互作用,以及去除不同實(shí)驗(yàn)文獻(xiàn)證實(shí)的重復(fù)相互作用,最終從mirtarbase數(shù)據(jù)庫(kù)中篩選了小鼠的1172個(gè)mirna與14117個(gè)靶基因之間的398858個(gè)相互作用,以及人類的2989個(gè)mirna和16979個(gè)靶基因之間的1731969個(gè)相互作用,以此構(gòu)建mti數(shù)據(jù)集。
16、進(jìn)一步地,步驟s21包括:基于步驟s1構(gòu)建的數(shù)據(jù)集,所述多模態(tài)特征提取器以mirna的序列數(shù)據(jù)和mti數(shù)據(jù)為輸入,提取出mirna的序列特征表示、固有特征表示和mti特征表示三部分特征;
17、進(jìn)一步地,所述序列特征表示為fseq,由序列的3-mer頻率向量經(jīng)transformer編碼器進(jìn)行編碼后得到;
18、對(duì)于長(zhǎng)度為l的序列s=(s1,s2,...,sl),si∈{a,u,g,c},其序列的3-mer組合為comb(s,3)={si,si+1,si+2|i=1,2,…,l-2},由此可計(jì)算序列s的3-mer頻率向量:
19、fmer=[f1,f2,...,f64]?(1)
20、其中fmer的維度64,fi為第i個(gè)3-mer序列在組合中的出現(xiàn)頻率;隨后,3-mer頻率向量經(jīng)transformer編碼器進(jìn)行編碼后,得到fseq,其維度為128。
21、進(jìn)一步地,所述固有特征表示為finherent,根據(jù)輸入的mirna序列可獲得18維固有特征f18_vector,通過(guò)多層感知器模塊將其轉(zhuǎn)換為維度為128的固有特征表示:
22、finherent=relu(winherent×f18_vector+binherent)?(2)
23、其中,winherent和binherent分別是固有特征變換的權(quán)重矩陣和偏置向量。
24、進(jìn)一步地,所述mti特征表示為fmti,根據(jù)收集的小鼠和人類mirna對(duì)應(yīng)的mti數(shù)據(jù),通過(guò)獨(dú)熱編碼和主成分分析方法獲得維度為128的基于mti特征fmti_vector;
25、優(yōu)選地,在mti特征表示部分,先整理每個(gè)mirna所對(duì)應(yīng)的靶基因,進(jìn)行獨(dú)熱編碼得到相互作用二元向量(若靶基因i和mirna存在相互作用,向量第i個(gè)元素為1,否則為0),獲得小鼠的14117維和人類的16979維mti特征;考慮到數(shù)據(jù)稀疏且維度較高,采用主成分分析方法都將其降維至128維。再通過(guò)多層感知器模塊得到維度為128的mti特征表示:
26、fmti=relu(wmti×fmti_vector+bmti)?(3)
27、其中,wmti和bmti分別是mti特征變換的權(quán)重矩陣和偏置向量;
28、進(jìn)一步地,將所述序列特征表示、固有特征表示和mti特征表示拼接,得到維度為384的最終mirna的特征表示:
29、ffinal=concat(fseq,finherent,fmti)?(4)。
30、進(jìn)一步地,步驟s21中,所述transformer編碼器模塊,輸入為3-mer頻率向量fmer,先經(jīng)過(guò)嵌入層和位置編碼層得到頻率向量的編碼表示;
31、所述嵌入層計(jì)算過(guò)程表示如下:
32、femb=wemb×fmer+bemb?(5)
33、其中,wemb和bemb分別是嵌入層的權(quán)重矩陣和偏置向量;
34、所述位置編碼層的計(jì)算公式如下:
35、
36、其中pos為詞的位置索引(若句子長(zhǎng)度為l,則pos=0,1,...,l-1),i是詞向量的某一維度,dmodel為詞向量的維度;在一些實(shí)施方式中,i是詞向量的某一維度(本發(fā)明中i∈[0,63)),dmodel為詞向量的維度(本發(fā)明中取其為128)。位置編碼層通過(guò)不同頻率的正弦和余弦函數(shù)來(lái)表示位置信息,為序列中每個(gè)詞元分配唯一的表示,使模型能夠理解序列的結(jié)構(gòu)和順序,提升預(yù)測(cè)準(zhǔn)確性。
37、進(jìn)一步地,將所述嵌入層和所述位置編碼層得到的向量按元素相加,輸入至4層的transformer編碼器中;所述編碼器由多頭注意力模塊、相加和正則化模塊以及前向傳播網(wǎng)絡(luò)層組成。
38、更進(jìn)一步地,所述多頭注意力模塊的輸入,即查詢(query)、鍵(key)和值(value)向量q,k,v,然后經(jīng)過(guò)線性層變換得到qwq,kwk和vwv,其中wq,wk和viwv分別為查詢、鍵和值的權(quán)重矩陣;
39、所述多頭注意力模塊的輸出為:
40、multihead(q,k,v)=concat(head1,...,headh)w0?(7)
41、其中,headi=attention(qiwq,kiwk,viwv)為第i個(gè)頭的表示,w0為線性變換矩陣。在本發(fā)明的一些實(shí)施方式中,取頭數(shù)h為8。
42、所述多頭注意力模塊的注意力機(jī)制采用縮放點(diǎn)積注意力,以q,k和v作為輸入,經(jīng)過(guò)矩陣相乘、縮放操作和softmax之后可獲得最終輸出,具體公式如下:
43、
44、其中,qi,ki和vi為第i個(gè)頭的查詢、鍵和值矩陣,dk為矩陣維度;目的是使softmax函數(shù)更穩(wěn)定。
45、之后,采用殘差連接,即將嵌入層和位置編碼層相加結(jié)果與多頭注意力模塊處理結(jié)果按元素相加,正則化這部分則采用了層歸一化,即按照樣本方向進(jìn)行歸一化處理,防止梯度消失或梯度爆炸;隨后,經(jīng)過(guò)前向傳播網(wǎng)絡(luò)層,主要包括線性層和relu激活函數(shù)兩部分;最后,將前向傳播網(wǎng)絡(luò)層的輸入和輸出進(jìn)行殘差連接并進(jìn)行歸一化處理,得到最終transformer編碼的輸出,即mirna的序列特征表示fseq。
46、獲得源域和目標(biāo)域的特征表示之后,本發(fā)明設(shè)計(jì)了三種損失函數(shù)對(duì)齊兩域特征的分布并保證分類準(zhǔn)確性,分別是分類損失、coral(correlation?alignment,相關(guān)系對(duì)齊)損失和對(duì)抗損失。
47、進(jìn)一步地,將源域特征輸入標(biāo)簽預(yù)測(cè)器得到預(yù)測(cè)的源域樣本的重要性標(biāo)簽,其公式為:
48、
49、其中,為源域mirna的最終特征表示,分別表示源域中mirna的序列特征表示、固有特征和mti特征表示;分別是標(biāo)簽預(yù)測(cè)器的權(quán)重矩陣和偏置向量;
50、然后,將預(yù)測(cè)的源域樣本的重要性分?jǐn)?shù)與真實(shí)的小鼠mirna樣本重要性標(biāo)簽計(jì)算分類損失:
51、
52、其中,是源域中第i個(gè)mirna樣本的真實(shí)的重要性標(biāo)簽(1和0分別表示正、負(fù)樣本),為模型預(yù)測(cè)的i個(gè)樣本的預(yù)測(cè)概率,ns為源域樣本數(shù)量;
53、在一種實(shí)施方式中,所述標(biāo)簽預(yù)測(cè)器為全連接層網(wǎng)絡(luò)。
54、所述coral(correlation?alignment,相關(guān)系對(duì)齊)損失:先計(jì)算兩域mirna特征表示的協(xié)方差矩陣,再計(jì)算coral損失:
55、
56、其中d為源域特征的維度,||·||f表示frobenius范數(shù);cs和ct分別為源域和目標(biāo)域特征的協(xié)方差矩陣,具體公式為:
57、
58、其中xs和xt為源域和目標(biāo)域特征矩陣,i是一個(gè)元素全為1的ns維向量,nt為目標(biāo)域樣本數(shù)目;coral損失是通過(guò)最小化兩域協(xié)方差矩陣間的f范數(shù),減小兩域間特征分布差異,使在源域上訓(xùn)練的分類器更好地泛化到目標(biāo)域。
59、所述對(duì)抗損失為由源域與目標(biāo)域的領(lǐng)域交叉熵?fù)p失計(jì)算得來(lái);
60、
61、其中,為源域的交叉熵?fù)p失,為目標(biāo)域的交叉熵?fù)p失;對(duì)于第i個(gè)源域樣本特征及第j個(gè)目標(biāo)域樣本特征,其各自領(lǐng)域交叉熵?fù)p失可表示為:
62、
63、其中,gd代表領(lǐng)域判別器使用sigmoid激活函數(shù)輸出的領(lǐng)域預(yù)測(cè)標(biāo)簽;通過(guò)將源域和目標(biāo)域的mirna的特征表示輸入領(lǐng)域判別器,分別得到兩域的領(lǐng)域預(yù)測(cè)標(biāo)簽;基于二元分類任務(wù),特征表示若來(lái)自源域,其領(lǐng)域標(biāo)簽則為0,否則為1;
64、分別表示源域第i個(gè)樣本和目標(biāo)域第j個(gè)樣本的最終特征表示,表示源域第i個(gè)樣本特征和目標(biāo)域第j個(gè)樣本特征的真實(shí)領(lǐng)域標(biāo)簽,分別為1和0;
65、在模型訓(xùn)練過(guò)程中,將所述分類損失、coral損失、對(duì)抗損失求和進(jìn)行反向傳播更新模型參數(shù);梯度反轉(zhuǎn)層在反向傳播對(duì)抗損失時(shí)對(duì)梯度進(jìn)行取反操作,使領(lǐng)域判別器的參數(shù)向梯度減小的方向優(yōu)化,而使特征提取器的參數(shù)向梯度增大的方向優(yōu)化,從而形成對(duì)抗關(guān)系,促使特征提取器學(xué)習(xí)到對(duì)任務(wù)有用且對(duì)域變化不敏感的特征表示;通過(guò)多次迭代訓(xùn)練,不斷調(diào)整特征提取器和標(biāo)簽預(yù)測(cè)器的參數(shù),直到達(dá)到預(yù)設(shè)的訓(xùn)練輪數(shù)停止訓(xùn)練。
66、進(jìn)一步地,步驟s3中,
67、目標(biāo)域域樣本的重要性分?jǐn)?shù):
68、
69、其中,為目標(biāo)域mirna的最終特征表示,分別表示目標(biāo)域中mirna的序列特征表示、固有特征表示和mti特征表示,為分別是標(biāo)簽預(yù)測(cè)器的權(quán)重矩陣和偏置向量。
70、本發(fā)明的第二個(gè)方面在于提供一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)所述的人類重要microrna識(shí)別方法。
71、本發(fā)明的第三個(gè)方面在于提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述人類重要microrna識(shí)別方法。
72、本發(fā)明的有益效果至少在于:
73、(1)本發(fā)明創(chuàng)新性地設(shè)計(jì)了一種全新的多模態(tài)特征提取器,從多角度出發(fā)對(duì)mirna的特征進(jìn)行全面捕捉;該提取器融合了mirna的基于k-mer和tranformer編碼器的序列特征、基于mti數(shù)據(jù)的mti特征以及基于序列的固有特征;能夠提取更多模態(tài)的mirna特征,從而更全面的表示mirna特征。
74、(2)本發(fā)明提供的對(duì)抗訓(xùn)練的方式,使得領(lǐng)域分類器能夠區(qū)分輸入特征的域來(lái)源,并朝著梯度減小方向優(yōu)化;同時(shí),讓特征提取器能夠生成混淆領(lǐng)域分類器的特征,并朝著梯度增大的方向進(jìn)行優(yōu)化。通過(guò)這種方式,逐漸使得兩域特征分布逐漸對(duì)齊。在此基礎(chǔ)上,進(jìn)一步聯(lián)合coral損失,以最小化兩域特征分布之間的差異,最終使模型學(xué)習(xí)到域不變特征。創(chuàng)新性地將對(duì)抗訓(xùn)練策略與coral損失聯(lián)合,并嵌入到基于深度領(lǐng)域自適應(yīng)的人類重要mirna識(shí)別框架中,這是此領(lǐng)域的首創(chuàng),也是本發(fā)明的關(guān)鍵改進(jìn)之處。
75、(3)基于本發(fā)明的多模態(tài)特征提取器和領(lǐng)域?qū)箤W(xué)習(xí)方式;本發(fā)明進(jìn)一步開發(fā)出deephem模型是一個(gè)端到端的的深度領(lǐng)域自適應(yīng)框架,將深度網(wǎng)絡(luò)與領(lǐng)域自適應(yīng)結(jié)合,可以更有效地學(xué)習(xí)mirna特征表示,實(shí)現(xiàn)兩域特征分布的對(duì)齊,進(jìn)而提高人類mirna重要性預(yù)測(cè)的精度和可靠性。