你好,歡迎進入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!
發(fā)布時間:2023-05-31
瀏覽次數(shù):0
完成它
R
轉(zhuǎn)錄組分析方法
-5·30-
應(yīng)該總結(jié)
啦啦啦~明天就是星期六啦!
明天的帖子來自粉絲投稿~一起來看看吧!
01
轉(zhuǎn)錄組()
定義:轉(zhuǎn)錄組的概念最早由等人提出。 in 1997 [PMID:],它指的是在特定物種的特定組織或細(xì)胞中轉(zhuǎn)錄的所有RNA的集合。
應(yīng)用:
① 轉(zhuǎn)錄組可以闡明基因表達的時空動態(tài),反映生物個體特定生長發(fā)育階段特定細(xì)胞、組織或器官中所有基因的轉(zhuǎn)錄表達水平;
② 同時dnastar拼接序列,轉(zhuǎn)錄組也常被用來比較一個器官、組織或細(xì)胞在不同環(huán)境條件下的基因表達差異;
02
RNA-seq數(shù)據(jù)分析流程
RNA-seq,即RNA,RNA測序。
實驗步驟如下:
① 靶組織總RNA的制備
② RNA樣本的片段化
③反轉(zhuǎn)錄成cDNA片段
④測序文庫構(gòu)建
⑤ 原始數(shù)據(jù)處理(基于Linux或)
那么如何分析RNA-seq數(shù)據(jù)呢?
常規(guī)的RNA-seq數(shù)據(jù)分析流程如下:
數(shù)字。 RNA-seq分析過程
下面,將詳細(xì)解釋分析操作的每個步驟。
03
原始數(shù)據(jù)質(zhì)量控制
①原始數(shù)據(jù)格式:
序列確定后,輸出FASTQ格式的原始數(shù)據(jù)();
②序列質(zhì)控軟件:
序列質(zhì)控軟件主要包括:軟件、軟件等。
一)軟件:
用于:過濾掉 ()、低質(zhì)量、重復(fù)和未檢測到的序列以獲得;
二)軟件:
用于:檢查的核苷酸質(zhì)量值(score,Q-score)和核苷酸分布,判斷測序和過濾的功效,用核苷酸測序錯誤率(Q20和Q30)來表示質(zhì)量。
其中:Q20和Q30分別代表測序錯誤率為1%和0.1%的核苷酸比例。
GC 濃度和樣本間相關(guān)性也用于原始測序質(zhì)量鑒定。
04
的比對拼接
完成了從到的原始數(shù)據(jù)質(zhì)量控制,接下來就是的比對拼接。
一般來說,對于不同類型的測序數(shù)據(jù),有不同的拼序列和序列比對方式:
① 參考基因組序列測序數(shù)據(jù):
使用參考基因??組序列組裝測序數(shù)據(jù)時,您可以:
a) 首先通過序列比對定位()到參考基因組的所有reads;
b) 將比對到相應(yīng)位置的reads降維,生成代表所有可能可變剪切模式的圖(graph);
c) 最后將graph信息轉(zhuǎn)化為信息;
具體步驟如下:
a) 首先從UCSC數(shù)據(jù)庫()下載參考基因組序列,用軟件構(gòu)建成基因組索引(index)文件。
b) 隨后借助軟件,在建立的索引文件、全基因組序列信息和參考基因注釋信息的指導(dǎo)下,將質(zhì)控測序reads映射到基因組中。
常用的序列比對軟件如下:
,, STAR, GSNAP, SOAP2, S-MART等
② 無參考基因組序列的測序數(shù)據(jù):
在本領(lǐng)域中,在沒有參考基因組序列的情況下對測序數(shù)據(jù)進行序列組裝也稱為從頭測序組裝()。
它的基本流程是:
a) 將每個測序讀長組裝成一個();
b) 重新組裝成支架();
c) 最后填充腳手架中間的空隙,組裝成一個連續(xù)的長序列;
d) 與模型動物序列(, BLAST)比對確定基因序列;
常用的序列比對軟件如下:
以軟件為代表的從頭組裝平臺為轉(zhuǎn)錄組從頭組裝提供了有效的工具。
該軟件包含 3 個獨立的模塊。
使用時,依次運行三個軟件模塊,將reads組裝成完整的轉(zhuǎn)錄本。 拼接策略是對進行分割拼接,得到多個獨立的de maps(基因轉(zhuǎn)錄本),然后通過reads來追溯reads。 最后通過de graph 獲得全長轉(zhuǎn)錄本,根據(jù)graph 區(qū)分直系同源基因。
從頭開始組裝常用的軟件有:
埃德納
深淵
成績單問題:
在真核細(xì)胞中,每個基因可以形成多個轉(zhuǎn)錄本。 這會導(dǎo)致同一個測序片段同時出現(xiàn)在多個轉(zhuǎn)錄本中,使RNA拼接成多個不連通的圖結(jié)構(gòu),每個圖對應(yīng)基因?qū)?yīng)的轉(zhuǎn)錄本。
上述兩種方法在進行序列拼接時,希望將算法問題簡化為各個基因的拼接問題,提出了拼接圖、重疊圖、去圖等多種圖模型,以實現(xiàn)各個圖與對應(yīng)的圖的統(tǒng)一。基因。 一一對應(yīng)。 兩種方法采用不同的拼接策略,各有各的使用范圍,互為補充。
一般來說,由于參考信息的缺失以及測序錯誤和覆蓋不均勻的影響,從頭組裝算法的準(zhǔn)確率明顯高于基于參考基因組的組裝算法。 但有些物種沒有完整的基因組序列,從頭組裝方法對這個物種來說是開創(chuàng)性的。
此外,雖然個體物種具有完整的基因組序列,但由于個體癌癥等誘因,基因組存在嚴(yán)重的突變和缺失。 這時,從頭拼接方法就會顯示出顯著的優(yōu)勢。
需要解決的問題:
可以說,盡管經(jīng)過幾年的研究,序列拼接仍未得到圓滿解決,其主要問題如下:
A);
B) 序列組裝的時間和空間挑戰(zhàn);
c) 序列片段錯誤(雜質(zhì)序列和核苷酸讀出錯誤);
d) 不能準(zhǔn)確確定它們之間的位置和距離;
上述類型的問題通常會導(dǎo)致數(shù)據(jù)庫中不可避免的拼接錯誤。
05
轉(zhuǎn)錄物表達譜
建立的轉(zhuǎn)錄組分析方法可以根據(jù)與基因組相比的序列數(shù)對各基因的表達量進行歸一化處理、定量或表達狀態(tài)分析和差異表達分析。
常用的軟件有:
/,, RSEM, DESeq, edgeR
在這些軟件的幫助下,可以計算:
A) 表達基因作圖的reads數(shù)量;
B) 基因?qū)挾群徒Y(jié)構(gòu);
c) 獲取基因的RPKM()或FPKM(ds)值;
D) 最終表達差異分析
通常,
A) 軟件:您可以從位于基因組上的同一轉(zhuǎn)錄本中獲取片段;
b) 軟件:可將此類片段組裝成全長轉(zhuǎn)錄本;
c)-pare軟件:將全長轉(zhuǎn)錄本與已有的基因組注釋文件進行比對,評估轉(zhuǎn)錄本的建立,定義內(nèi)含子、外顯子、基因間等區(qū)域;
D) 軟件:每組樣本可以拼接得到各自的轉(zhuǎn)錄本信息,軟件可以將它們合并成一個轉(zhuǎn)錄本集,作為下一步差異表達信息分析的依據(jù)
E)中包含的軟件可用于估計兩個或多個樣本的基因表達量,但針對基因表達量,對表達量進行統(tǒng)計分析和統(tǒng)計檢驗,得到不同樣本間差異表達的RNA分子.
F) DESeq包:在這一步中,DESeq包也可以用來分析不同處理之間的差異表達。 通過估計相同基因在兩次處理中表達量相等的P值,然后利用多重假設(shè)檢驗對F值進行校準(zhǔn),校準(zhǔn)后的P值可用于檢驗差異表達基因的顯著性。
06
可變剪接分析
可變剪接的分析通常使用軟件將reads與基因組序列進行比對,根據(jù)位置、長度和結(jié)構(gòu)信息預(yù)測剪接體的類型,然后使用軟件包分析剪接體的表達差異。
其中,可用的軟件包包括:
,,,, 等等。
目前轉(zhuǎn)錄組序列的剪接位點識別算法主要有兩種:
① 以基因組序列潛在位點為核心的剪接鑒定:
常用算法:
優(yōu)點:可以同時使用多機多核CPU資源并行運行,分析效率大幅提升
缺點:其剪接模式搜索依賴于潛在基因組位點的預(yù)識別,只能檢測特定距離內(nèi)的保守剪接方式
② 以reads分割和匹配為中心的拼接位點識別:
常用算法:
優(yōu)點:完全以reads為中心,搜索拼接位點,不受保守拼接方式限制
缺點:由于基因組本身有很多重復(fù)序列,測序過程中產(chǎn)生的短片段過多,影響估計效率和匹配精度,增加了剪接位點的可靠性
常用的變剪力數(shù)據(jù)庫有:
數(shù)據(jù)庫
馬斯
.php
歐盟
.com
07
基因功能富集分析
基因功能:是指代表某種功能特性和生物過程的一組基因功能。
基因功能富集分析:可將數(shù)百種具有不同功能的基因、蛋白質(zhì)或其他分子還原到不同的生物通路。 其中,在生物體中實現(xiàn)某些功能性狀的一組基因或蛋白質(zhì)往往富集到某條路徑上。 基因功能富集分析降低了后續(xù)分析的復(fù)雜性,還可以發(fā)現(xiàn)在生物過程中起關(guān)鍵作用的生物通路,有助于闡明和理解生物過程的基本分子機制。
常用的基因功能數(shù)據(jù)庫包括:
GO, KEGG,,,,,, 爾格, Gen-MAPP
例如:
①KEGG數(shù)據(jù)庫:
概述:能夠系統(tǒng)分析基因產(chǎn)物的細(xì)胞代謝途徑和功能,通過KEGG分析實現(xiàn)表達基因的富集,并獲得相應(yīng)的注釋。
方法:可通過KOBAS或DAVID等軟件實現(xiàn)分析,KEGG網(wǎng)站提供各生物學(xué)通路的專用圖。
②數(shù)據(jù)庫:
概述:數(shù)據(jù)庫提供生物通路劃定模板,研究者可以按照數(shù)據(jù)庫要求和規(guī)定的標(biāo)準(zhǔn)上傳相應(yīng)的生物通路分析結(jié)果。
但數(shù)據(jù)庫不負(fù)責(zé)對用戶上傳的生物通路分析結(jié)果進行質(zhì)檢,導(dǎo)致數(shù)據(jù)庫資源質(zhì)量參差不齊,重復(fù)現(xiàn)象較多。 盡管如此,該數(shù)據(jù)庫擁有龐大的數(shù)據(jù)資源,而且與KEGG數(shù)據(jù)庫不同的是,它包含了大量代謝途徑以外的生物學(xué)途徑,對于篩選能力強的研究者具有重要的參考價值。
③數(shù)據(jù)庫:
概述:該數(shù)據(jù)庫可免費使用。 用戶可以利用數(shù)據(jù)庫資源勾勒出生物通路,并以MAPP格式保存。 這個文件很小,很容易在網(wǎng)上傳播,有利于研究者之間隨時交流。
08
蛋白質(zhì)相互作用網(wǎng)絡(luò)
蛋白質(zhì)相互作用網(wǎng)絡(luò)
(-,生產(chǎn)者價格指數(shù))
概述:蛋白質(zhì)相互作用網(wǎng)絡(luò)可用于分析不同基因表達蛋白質(zhì)參與的生物信號傳遞、基因表達調(diào)控、能量物質(zhì)代謝、細(xì)胞周期調(diào)控等生命過程。
意義:除了了解蛋白質(zhì)之間的功能關(guān)系外,還可以了解癌癥等特殊生理狀態(tài)下生物信號和能量物質(zhì)代謝的反應(yīng)機制。
常用的數(shù)據(jù)庫包括:
SWISS-PROT, , PDB, SDSPB 等
軟件:
將差異表達的基因數(shù)據(jù)導(dǎo)出到軟件中,實現(xiàn)蛋白質(zhì)相互作用網(wǎng)絡(luò)的可視化分析。
對于數(shù)據(jù)庫中沒有注釋信息的物種,需要將候選基因序列與數(shù)據(jù)庫中收錄的近緣物種的基因進行比對,從而利用數(shù)據(jù)庫中已經(jīng)存在的物種的蛋白質(zhì)相互作用關(guān)系進行預(yù)測候選靶基因之間的PPI。
這些方法首先需要根據(jù)文獻信息確定候選分子之間是否存在或可能存在相互關(guān)系,然后利用軟件建立相互作用網(wǎng)絡(luò)并對關(guān)鍵節(jié)點進行分析,最終確定PPI。
網(wǎng)絡(luò)系統(tǒng)生物學(xué)可以利用網(wǎng)絡(luò)分析的方法,從整體層面研究生物體內(nèi)各種相關(guān)生命活動之間的相互關(guān)系和動態(tài)變化dnastar拼接序列,為全面闡明生命奧秘提供重要的研究方法。 網(wǎng)絡(luò)系統(tǒng)生物學(xué)綜合分析文獻挖掘所獲得的信息,填補了還原論分析方法的不足,更有利于深入認(rèn)識生命現(xiàn)象的科學(xué)本質(zhì)。
09
加權(quán)基因共表達網(wǎng)絡(luò)分析
加權(quán)基因共表達網(wǎng)絡(luò)分析
(-, WGCNA)
概述:WGCNA可以找出共表達的基因,基因網(wǎng)絡(luò)與表型的相關(guān)性,以及基因網(wǎng)絡(luò)中的核心基因。
用途:適用于不同器官或組織的發(fā)育調(diào)控、同一組織不同時期的發(fā)育調(diào)控等復(fù)雜數(shù)據(jù)模式的轉(zhuǎn)錄組數(shù)據(jù)挖掘。
方式:
兩個環(huán)節(jié):WGCNA分為表達量降維分析和表型關(guān)聯(lián)兩個環(huán)節(jié);
四個步驟:WGCNA的實現(xiàn)包括四個步驟:基因間相關(guān)系數(shù)的估計、基因模塊的確定、共表達網(wǎng)絡(luò)的建立、模塊與性狀的關(guān)聯(lián);
通過上述網(wǎng)絡(luò)分析,找到調(diào)控中心的hub基因,進而深入分析該基因,挖掘其功能。
傳統(tǒng)方法的缺點:
由于傳統(tǒng)的表達調(diào)控網(wǎng)絡(luò)分析方法是基于基因間表達的相關(guān)系數(shù),當(dāng)樣本數(shù)量較少時,相關(guān)系數(shù)的可靠性較差,得到的調(diào)控網(wǎng)絡(luò)價值不大。
WGCNA的優(yōu)勢:
WGCNA拋開以往通過設(shè)置相關(guān)系數(shù)的閾值來判斷基因間“相關(guān)”或“不相關(guān)”的做法,而是對基因表達量的相關(guān)系數(shù)進行適當(dāng)?shù)募訖?quán),避免信息丟失,使得相應(yīng)的基因表達式調(diào)節(jié)網(wǎng)絡(luò)近似服從無標(biāo)度網(wǎng)絡(luò)分布。
10
成績單數(shù)據(jù)分析的兩個問題
在之前的討論中,我們簡要回顧了轉(zhuǎn)錄組數(shù)據(jù)的分析流程以及基本分析所涉及的各個部分。
其實在轉(zhuǎn)錄數(shù)據(jù)分析的過程中,有兩個重要的問題:
① 如何從海量測序數(shù)據(jù)中準(zhǔn)確拼接RNA序列;
② 如何篩選目標(biāo)候選基因,從海量RNA序列中發(fā)現(xiàn)新基因;
下面,我們將著重介紹一些篩選目標(biāo)候選基因和發(fā)現(xiàn)新基因的方法:
11
序列同源性比較
基本假設(shè):
如果基因 A 與基因 B 同源,則基因 A 可能具有與基因 B 相似的功能。
基本方式:
富集分析是對轉(zhuǎn)錄組數(shù)據(jù)分析得到的差異基因進行富集分析,找出相關(guān)通路富集的候選基因,然后在NCBI上找到該基因或蛋白質(zhì)序列,再利用序列同源性比對預(yù)測新基因的功能。
借助同源比對算法,在DNA或蛋白質(zhì)序列數(shù)據(jù)庫中查找待測序列的同源基因,得到一系列與該基因同源性較高的基因或片段。 該基因或片段的已知功能信息為進一步研究該基因的功能提供了指導(dǎo)。
實現(xiàn)方式:
① 同源檢索:
軟件一:軟件:
可以通過軟件進行同源基因檢索。 在序列檢索時,根據(jù)序列的結(jié)構(gòu)和可能的功能,通過旁系同源基因和直系同源基因兩種方式,利用軟件對待檢索序列進行檢索。
一般認(rèn)為,具有相同功能域的基因序列,即使來自不同物種,也可以定義為旁系同源基因;屬于不同功能域的基因序列,即使來自同一物種,也可以定義為直系同源基因。 同源搜索為基因組進化解剖和預(yù)測候選基因功能提供了證據(jù)。 而且,基于該軟件尋找旁系同源基因必須在相對完整的基因組之間進行;
軟件二:.0軟件:
此外,基于隱馬爾可夫模型,.0軟件可用于檢查序列比對結(jié)果中的保守區(qū)域,識別序列中已知的核苷酸或蛋白質(zhì)結(jié)構(gòu)域,揭示序列與序列之間的超家族、家族和亞家族。物種特異性。
優(yōu)點是可以測量遠處的同源序列。
同源檢索為發(fā)現(xiàn)進化或物種分化過程中的關(guān)鍵功能基因提供了重要工具。
②多序列比對:
就是同時對多個序列進行同源比較,發(fā)現(xiàn)它們共同的結(jié)構(gòu)特征。 該方法為尋找基因家族或蛋白質(zhì)家族的保守區(qū)域提供了重要的技術(shù)支持。 保護區(qū)與家庭成員的功能密切相關(guān)。 這樣構(gòu)建的蛋白質(zhì)家族數(shù)據(jù)庫將有助于搜索和拯救新基因所屬的蛋白質(zhì)家族及其保守區(qū)域,并提供該家族其他成員的結(jié)構(gòu)和功能信息。
多序列比對軟件主要包括:
/X,,, SAGA, MEGA7, MSA, MAFFT 等
這種多序列比對軟件是使用各種程序開發(fā)的。
其中應(yīng)用最廣泛的比對程序是基于漸進式比對算法的Clust-alW程序,但其準(zhǔn)確率不高。
為此,相繼開發(fā)了其他比較程序,其中比較有代表性和影響力的有:
基于迭代求精策略的PRRN/PRRP;
基于傅立葉變換;
基于多次迭代和 T-COF-FEEJ 等人。
這個新程序提高了多序列比對的速度和精度。
12
選定的信號方法
選擇信號():
物種的產(chǎn)生經(jīng)歷了自然選擇或自然與人工的雙重選擇。 在常年定向選擇的壓力下,生物體的個體性狀和表型會發(fā)生定向變化,基因組各個區(qū)域的遺傳組成會發(fā)生質(zhì)變和量變,從而導(dǎo)致位基因頻率的不均等變化,甚至形成新的突變。
其中,這些因選擇而在基因組中留下的印記被稱為選擇信號( )。
利用選擇信號法對轉(zhuǎn)錄組數(shù)據(jù)進行功能基因挖掘的步驟如下:
① 首先,借助Gatk等軟件,對轉(zhuǎn)錄組測序得到的SNP(sigle)數(shù)據(jù)進行篩選;
②結(jié)合XP-EHH(cross-)方法測量SNP數(shù)據(jù),獲得組選擇信號;
③然后通過and方法掃描組選擇信號,最終得到相關(guān)性狀的基因組選擇區(qū)域。
其中,由于每個選中區(qū)域的基因較多,因此先估算每個基因中每個SNP位點的XP-,然后將XP-從低到高排序,SNP位點的得分與得分最高的基因定義為其選擇的難度,最后將該區(qū)域XP-最高的SNP位點得分確定為該選擇區(qū)域的選擇硬度,因此XP-最高的基因SNP該區(qū)域的位點是選擇區(qū)域的候選基因。
建立系統(tǒng)發(fā)育樹對篩選出的候選基因進行分析,挖掘出與種群和目標(biāo)性狀密切相關(guān)的篩選基因。 同時,將其與自然選擇、人工選擇聯(lián)系起來,進一步解釋被選擇的基因在當(dāng)時的環(huán)境和進化中的作用。
13
極端數(shù)據(jù)
極端數(shù)據(jù)方法基于以下假設(shè):
健康組織中高表達的基因?qū)τ谏矬w充分發(fā)揮其生理功能具有潛在意義。
在實際應(yīng)用中:
使用百分位數(shù)法,將同源基因集分為:
高表達組:表達量在前10%的基因組;
中央表達組:位于基因組的10%~50%;
低表達組:位于50%~90%的基因集中;
極低表達組:位于最后10%的基因組;
其中,極低表達組和高表達組被定義為極端數(shù)據(jù)集。
極端數(shù)據(jù)方法是指:
比較物種A的高表達組和物種B相應(yīng)組織的極低表達組共有的同源基因,兩者的交集就是物種A表達的同源奢侈基因,即基因為在物種A中高表達,而在物種B的相應(yīng)組織中表達。組織表達很低或不表達。
類似地,可以篩選出在物種B組織中特異性高表達而在物種A相應(yīng)組織中表達極低或不表達的同源基因。
目前,百分位數(shù)法已被廣泛用于挖掘具有較高表達或物種特異性表達的同源基因。 但由于測序平臺、比對方法和軟件的差異,該方法容易出現(xiàn)一定的系統(tǒng)偏差,導(dǎo)致假陰性結(jié)果比例高,影響基因挖掘的準(zhǔn)確性,高表達基因定義標(biāo)準(zhǔn)不當(dāng)也可能影響這項技術(shù)。 挖掘療效。
14
G0 注釋和 KEGG 富集
基于GO和KEGG數(shù)據(jù)庫開發(fā):
David、GOSim等軟件可以實現(xiàn)差異表達基因的注釋、富集分析和功能預(yù)測。
圍棋分析:
一般認(rèn)為,一組具有相同生物學(xué)功能和調(diào)控機制的基因具有相似的G0注釋項。 只要計算出已知基因與候選基因之間的GO項相似度,就可以推斷出候選基因產(chǎn)物的近似函數(shù)。
通過與已知功能基因的GO語義進行相似度比較,為未知基因的功能預(yù)測提供重要參考。
DAVID、GO是GO富集分析常用的數(shù)據(jù)庫,可以通過GO對差異基因進行分類,并基于離散分布分析分類結(jié)果的顯著性、誤判率和富集程度,得到與差異基因明顯相關(guān)的結(jié)果實驗?zāi)康模瑢Φ驼`判率、高富集度的基因功能進行分類,然后從分類中找出屬于同一個GO功能分類的發(fā)生變化的基因,并檢驗統(tǒng)計顯著性得到發(fā)生變化的基因的生物學(xué)功能主要參與.
凱格分析:
通過估計差異表達基因通路的超幾何分布概率,富集每條差異表達基因通路上的所有差異表達基因,然后通過統(tǒng)計檢驗確定與個體差異表達基因顯著相關(guān)的通路,從而找到差異表達基因的細(xì)胞生化基因可能參與的過程。
通路富集分析的生物學(xué)假設(shè)是:
通路中上游基因表達量的變化會引起下游相關(guān)基因表達量的變化,進而改變通路中大量基因的表達量,表達量的變化將達到統(tǒng)計學(xué)上的顯著水平的富集分析。
在眾多的差異表達基因中,很多基因并不在相應(yīng)的通路中直接相互調(diào)控,而是參與某一過程的不同環(huán)節(jié)。 這些基因簡單地構(gòu)成了通路的總體輪廓。
實際剖析時:
將差異表達基因集導(dǎo)出至通路分析軟件,通過超幾何分布概率估計和差異表達基因的顯著性檢驗,預(yù)測差異表達基因顯著富集的通路。
事實上,預(yù)測結(jié)果仍需深入觀察和了解某一核心通路中基因的相互作用,才能判斷差異表達基因是否具有生物學(xué)意義。 可以解釋,具有生物學(xué)意義,也可以作為后續(xù)生物學(xué)驗證分析的候選基因。
KEGG等數(shù)據(jù)庫收錄了現(xiàn)有的研究成果,很多通路的信息還遠未建立,導(dǎo)致很多通路只能顯示大概的調(diào)控通路,其中涉及到哪些轉(zhuǎn)錄因子,是否有重慶產(chǎn)生的其他代謝產(chǎn)物不清楚。 知道。
數(shù)據(jù)庫中這些通路的完整性也會影響富集分析的結(jié)果。 隨著研究的深入,每條通路的更多節(jié)點將被闡明,生命之謎的面紗將逐漸揭開。 基因功能分析也將變得更快、更準(zhǔn)確、更高效。
15
BSR-Seq方法
聚類分離分析 (, BSA)
將目標(biāo)性狀的兩個極差表型自交,在F1代親本后獲得性狀的F2代,將選出的表型極差的F2代個體組織樣本混合,建立兩個DNA或mRNA庫. 它們之間的基因序列差異就是該基因或數(shù)量性狀位點(,QTL)可能存在的候選區(qū)域。
該方法主要適用于:
質(zhì)性狀單個基因或數(shù)量性狀主基因的定位是快速獲得目標(biāo)性狀主基因或與其密切連鎖的分子標(biāo)記的有效途徑,但對次要基因的定位分析意義不大。
BSR-Seq方法:
結(jié)合BSA和RNA-Seq,實現(xiàn)實驗設(shè)計、測序分析、差異表達分析、基因功能分析鑒定的全鏈條設(shè)計。
該方法首先在隔離群體中選擇具有極端表型的個體,收集組織樣本建立兩個具有差異表型的樣本池,分別提取總RNA,進行轉(zhuǎn)錄組測序。 根據(jù)測序得到的核苷酸總數(shù)(bp)與基因組大小的比值決定測序因子。 將轉(zhuǎn)錄組測序得到的與參考基因組進行比對,將比對到參考序列唯一位置的reads用于SNP挖掘。 之后利用經(jīng)典的貝葉斯算法對SNP位點進行分析,最終找到與突變表型密切相關(guān)的基因組片段。
大量的RNA-Seq數(shù)據(jù)保證了在特定表達模式下開發(fā)與特定物種性狀表達相關(guān)的基因的SNP標(biāo)記,并通過對相關(guān)基因表達的進一步精細(xì)作圖和差異分析,逐步確定候選基因及其功能決定。 但該技術(shù)的定位結(jié)果由物種自交多態(tài)性、測量深度、混合池數(shù)量等多個參數(shù)決定。 要想得到最好的參數(shù),需要進行多次模擬實驗和參考基因組的支持。
你完成了~
如有侵權(quán)請聯(lián)系刪除!
Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務(wù)提供商
13262879759
微信二維碼