99久久精品国产一区二区狐狸,99福利在线观看,国产精品毛片在线,成人影院亚洲,日韩精品第一,天天躁日日躁性色aⅴ电影,午夜毛片网

基于轉(zhuǎn)錄因子基序預(yù)測scATAC-seq中啟動子片段的分類方法

文檔序號:41983864發(fā)布日期:2025-05-23 16:38閱讀:16來源:國知局

本發(fā)明涉及生物信息,具體涉及基于轉(zhuǎn)錄因子基序預(yù)測scatac-seq中啟動子片段的分類方法。


背景技術(shù):

1、對直接調(diào)控基因表達(dá)水平起著關(guān)鍵作用的啟動子位于基因的轉(zhuǎn)錄起始區(qū)域,是理解基因調(diào)控分子機制的基礎(chǔ)。在基因的調(diào)控網(wǎng)絡(luò)中,啟動子作為負(fù)責(zé)基因激活的關(guān)鍵調(diào)控元素,并不是孤立運作的。相反,它們是復(fù)雜調(diào)控系統(tǒng)的一部分,與轉(zhuǎn)錄因子tfs、增強子和其他元素相互交織,共同驅(qū)動目標(biāo)基因在特定細(xì)胞類型中實現(xiàn)特定的表達(dá)水平。隨著高通量測序技術(shù)的快速發(fā)展,特別是單細(xì)胞測序技術(shù)的突破,現(xiàn)在可以以前所未有的精確度分析單細(xì)胞分辨率下的基因表達(dá)多樣性和動態(tài)變化。單細(xì)胞分辨率的分析能夠檢測同一組織或器官內(nèi)單個細(xì)胞間基因表達(dá)的細(xì)微差異。

2、染色質(zhì)可及性分析是表觀遺傳學(xué)研究的基礎(chǔ),它為協(xié)調(diào)基因表達(dá)的調(diào)控機制提供了關(guān)鍵的見解。atac-seq可以利用轉(zhuǎn)座酶標(biāo)記染色質(zhì)的可及區(qū)域,然后通過測序揭示關(guān)于順式調(diào)控元素的關(guān)鍵信息。單細(xì)胞rna測序scrna-seq是轉(zhuǎn)錄組學(xué)的基礎(chǔ),它使得能夠在單細(xì)胞分辨率下繪制基因表達(dá)模式。整合scrna-seq和scatac-seq數(shù)據(jù)可以揭示基因表達(dá)與染色質(zhì)狀態(tài)之間的微妙聯(lián)系,并準(zhǔn)確評估各種細(xì)胞類型中由啟動子驅(qū)動的調(diào)控差異。這種綜合的跨組學(xué)方法加深了對基因表達(dá)調(diào)控網(wǎng)絡(luò)的復(fù)雜性和異質(zhì)性的理解。然而,通過多組學(xué)整合來確定啟動子是繁瑣的,因為它需要使用大量的r語言依賴包并執(zhí)行復(fù)雜的流程。

3、綜上,導(dǎo)致現(xiàn)有方法需要花費大量的人力物力去下載安裝依賴包執(zhí)行復(fù)雜流程,效率低。


技術(shù)實現(xiàn)思路

1、本發(fā)明的目的是針對上述問題,提供一種基于轉(zhuǎn)錄因子基序預(yù)測scatac-seq中啟動子片段的分類方法。

2、為達(dá)到上述目的,本發(fā)明采用了下列技術(shù)方案:基于轉(zhuǎn)錄因子基序預(yù)測scatac-seq中啟動子片段的分類方法,本方法包括以下步驟:

3、s1、獲取同一組織的多組學(xué)數(shù)據(jù)并進行比較,確保兩個組學(xué)數(shù)據(jù)中的細(xì)胞數(shù)量一致;

4、s2、通過rna的基因表達(dá)水平數(shù)據(jù)確定前2000個高變基因;

5、s3、將scatac-seq數(shù)據(jù)與通過標(biāo)識符確定rna表達(dá)量對應(yīng)的基因轉(zhuǎn)錄起始位點tss進行對應(yīng),有對應(yīng)則劃分為啟動子,無對應(yīng)則劃分為非啟動子;

6、s4、將啟動子和非啟動子數(shù)據(jù)分割為100bp的序列長度,并劃分出訓(xùn)練集、測試集和獨立集;

7、s5、利用motif從序列中提取特征,構(gòu)建特征矩陣;

8、s6、基于提取的特征,使用cnn模型構(gòu)建啟動子的預(yù)測模型;

9、s7、對建立的預(yù)測模型進行性能評估。

10、在步驟s1中,多組學(xué)數(shù)據(jù)數(shù)據(jù)是來自10x?genomics數(shù)據(jù)庫的pbmc的scrna-seq和scatac-seq數(shù)據(jù),通過比較兩個數(shù)據(jù)集中的細(xì)胞barcode來識別共有細(xì)胞,并統(tǒng)計各自的細(xì)胞數(shù)量確保兩個數(shù)據(jù)集的一致性。

11、在步驟s2中,確定前2000個高變基因具體包括以下步驟:

12、s21、獲取經(jīng)過質(zhì)控、標(biāo)準(zhǔn)化和歸一化處理后的scrna-seq數(shù)據(jù)集;

13、s22、對每個基因在所有細(xì)胞中的表達(dá)水平計算其標(biāo)準(zhǔn)差,以衡量基因表達(dá)的變異性;

14、s23、使用seurat軟件包中的函數(shù),根據(jù)基因表達(dá)的標(biāo)準(zhǔn)差對基因進行排序,并設(shè)置參數(shù)以選擇排序靠前的2000個基因作為高變基因。

15、在步驟s3中,啟動子和非啟動子的劃分具體包括以下步驟:

16、s31、提取scatac-seq數(shù)據(jù)中的細(xì)胞標(biāo)識符,并將其與scrna-seq數(shù)據(jù)中的細(xì)胞標(biāo)識符進行匹配,以確保分析的是同一細(xì)胞的不同組學(xué)數(shù)據(jù);

17、s32、對于每個匹配的細(xì)胞標(biāo)識符,確定scrna-seq數(shù)據(jù)中基因的轉(zhuǎn)錄起始位點tss;

18、s33、將scatac-seq數(shù)據(jù)中的每個片段與通過細(xì)胞標(biāo)識符確定的rna表達(dá)量對應(yīng)的基因tss進行比對;

19、s34、如果scatac-seq數(shù)據(jù)中的片段與某個基因的tss有對應(yīng)關(guān)系,則將該片段劃分為啟動子區(qū)域;

20、s35、如果scatac-seq數(shù)據(jù)中的片段與任何基因的tss無對應(yīng)關(guān)系,則將該片段劃分為非啟動子區(qū)域。

21、在上述的基于轉(zhuǎn)錄因子基序預(yù)測scatac-seq中啟動子片段的分類方法中,步驟s4具體包括以下步驟,

22、s41、分割啟動子和非啟動子片段,并劃分出訓(xùn)練集、測試集和獨立集;

23、s42、從scatac-seq數(shù)據(jù)中提取啟動子區(qū)域和非啟動子區(qū)域的序列片段,

24、s43、將每個啟動子和非啟動子區(qū)域的序列均勻地分割成若干個100bp的子序列。

25、在步驟s43中,對于長度不足100bp的序列,采用補0策略進行填充,確保所有序列在后續(xù)分析中具有相同的長度和格式。

26、在上述的基于轉(zhuǎn)錄因子基序預(yù)測scatac-seq中啟動子片段的分類方法中,啟動子和非啟動子在訓(xùn)練集中的樣本數(shù)各為6000條,且啟動子和非啟動子在測試集中的分布數(shù)量各為2000條,啟動子和非啟動子在獨立集中的分布數(shù)量各為2000條。

27、在步驟s5中,利用motif從序列中提取特征,具體步驟包括:

28、s51、獲取jaspar數(shù)據(jù)庫600個轉(zhuǎn)錄因子的長度為12的motif的位置頻率矩陣pfm;

29、s52、將序列片段轉(zhuǎn)換為one-hot編碼矩陣,其中每個堿基對應(yīng)一個唯一的編碼向量;

30、s53、將位置頻率矩陣pfm作為滑動窗口,逐個位置地滑動到one-hot編碼矩陣上;

31、s54、在每個位置上,根據(jù)one-hot編碼中1的位置提取位置頻率矩陣pfm中對應(yīng)的頻率值,作為該位置的特征值;

32、s55、通過滑動整合操作,為每個序列片段生成一個新的特征矩陣;

33、在步驟s6中,利用cnn模型構(gòu)建啟動子的預(yù)測模型,具體包括以下步驟:

34、s61、根據(jù)步驟s5中提取的特征矩陣,將預(yù)測模型的輸入維度確定為(600,?89,1);

35、s62、將預(yù)測模型的初始層設(shè)計為一個帶有32個7×7大小濾波器的二維卷積層,并使用批量歸一化和leakyrelu激活函數(shù),保留輸出結(jié)果;

36、s63、為預(yù)測模型添加另一個帶有64個3×3大小濾波器的卷積層,使用批量歸一化和leakyrelu激活函數(shù),并在應(yīng)用leakyrelu之前,通過殘差連接將初始卷積層的輸出整合到這一層;

37、s64、使用2×2大小的平均池化層來降低模型特征圖的維度,將得到的特征圖轉(zhuǎn)換為一維向量,并添加一個dropout層;

38、s65、為預(yù)測模型添加一個帶有256個單元的全連接層,使用批量歸一化和leakyrelu激活函數(shù);

39、s66、預(yù)測模型的輸出層為一個使用sigmoid激活函數(shù)的神經(jīng)元,以實現(xiàn)二元分類,使用adam優(yōu)化器,使用二元交叉熵作為損失函數(shù)。

40、在步驟s7中,評估通過cnn模型構(gòu)建預(yù)測啟動子模型的性能。

41、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:能夠更準(zhǔn)確地預(yù)測啟動子區(qū)域,從而提高基因表達(dá)調(diào)控研究的可靠性;能夠快速處理大量數(shù)據(jù),縮短了啟動子預(yù)測所需的時間,提高了研究效率,減少了人工操作和實驗成本,為生物信息學(xué)研究和基因調(diào)控網(wǎng)絡(luò)分析提供了一個高效、準(zhǔn)確且實用的工具,對于推動生物學(xué)研究和臨床應(yīng)用具有重要的科學(xué)和經(jīng)濟價值。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1