你好,歡迎進入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!
發(fā)布時間:2024-01-01
瀏覽次數(shù):0
由于測序儀機器讀長的限制,建庫過程中需要先對DNA進行片段化,測序得到的序列只是基因組的部分序列。 為了確定測序讀數(shù)在基因組上的位置,需要將讀數(shù)與參考基因組進行比較。 這一步稱為。
進行時,需要考慮以下因素
1、硬件資源消耗
一般來說,基因組越大,占用的內(nèi)存就越多。 對于大型基因組,例如人類基因組,優(yōu)化內(nèi)存消耗至關(guān)重要。
2、運行速度
隨著測序價格的下降以及數(shù)據(jù)深度挖掘的需要,測序量不斷增加,海量測序reads的比對必須足夠快。
3. 準確度
SNP/indel、測序錯誤率等因素會導致測序的reads與基因組上的原始序列之間存在幾個bp的錯誤,因此算法必須支持堿基錯配或缺口的存在。 同時,由于測序的短序列可能與基因組上的多個位置同源,因此一次讀取將與基因組上的多個位置進行比較。 雙端測序技術(shù)可以在一定程度上糾正多個位置,因為雙端讀段來自同一個DNA片段,并且基因組上的兩個位置相距并不算太遠,但僅憑這一點并不能解決所有同源比。 是的,這需要比對算法對多個位置進行判斷和打分,才能給出比對結(jié)果的可靠性。
4.RNA
對于轉(zhuǎn)錄組數(shù)據(jù)來說,真核生物中選擇性剪接的存在導致cDNA片段在基因組上不連續(xù),中間可能存在內(nèi)含子。 比較轉(zhuǎn)錄組數(shù)據(jù)時,需要考慮跳過的剪接位點。
目前可用的工具有很多,比如bwa、hisat、star等,hisat是其中速度最快的,并且是軟件的升級版本。 采用改進的FM索引算法,人類基因組僅需要約4.3GB內(nèi)存。還支持DNA和RNA數(shù)據(jù)的比較。 該軟件的官方網(wǎng)站如下:
目前最新版本是。 安裝過程如下
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
unzip hisat2-2.1.0-Linux_x86_64.zip
只需下載并解壓即可。
在進行比較之前,首先需要對參考基因組進行索引。 基本用法如下
hisat2-build -p 20 ? hg19.fa hg19
對于轉(zhuǎn)錄組數(shù)據(jù),構(gòu)建索引時,可以通過gtf文件獲取剪接位點和外顯子信息。 用法如下
hisat2_extract_splice_sites.py hg19.gtf > hg19.ss
hisat2_extract_exons.py hg19.gtf > hg19.exon
hisat2-build -p 20 ?--ss hg19.ss --exon hg19.exon ?hg19.fa hg19
支持多種格式的輸入文件。 常見的格式有以下兩種
法斯塔
快q
-f參數(shù)表示輸入文件格式為fasta,-q參數(shù)表示輸入文件格式為fastq。 輸入文件可以是gzip壓縮文件,默認輸入文件是fastq格式。
對于單端數(shù)據(jù),使用-U指定輸入文件; 對于雙端數(shù)據(jù)dnastar序列比對,使用-1和-2分別指定R1端和R2端的輸入文件。
讀取被映射到基因組上的一個位置,我們稱之為“1”。 軟件會對所有項目進行評分和判斷,符合篩選條件的為有效。 僅輸出有效的項目。
與爆炸類似,每一種也都有相應的評分機制。 hisat從以下幾個方面進行評分:
1. 不匹配基數(shù)懲罰
堿基不匹配的懲罰是通過 --mp 參數(shù)指定的。 它的值是兩個用逗號分隔的數(shù)字。 第一個數(shù)字是最高處罰,第二個數(shù)字是最低處罰。
2. 讀取時的間隙懲罰
空位懲罰分為兩部分,第一次出現(xiàn)空位的懲罰和空位擴展的懲罰。 讀取時的間隙懲罰通過 --rdg 參數(shù)指定。 它的值是兩個用逗號分隔的數(shù)字。 第一個數(shù)字是對空位第一個位置的罰分,第二個數(shù)字是對空位擴展的罰分。
3. 間隙罰分
間隙懲罰是通過 --rdg 參數(shù)指定的。 它的值是兩個用逗號分隔的數(shù)字。 第一個數(shù)字是對空位第一個位置的罰分,第二個數(shù)字是對空位擴展的罰分。
經(jīng)過一系列的懲罰機制后,每一個都會有相應的分數(shù),然后用一個閾值來判斷這個分數(shù)是否符合有效的要求。
hisat 通過 --score--min 參數(shù)指定閾值。 指定方法是與讀取程度相關(guān)的函數(shù)。 默認值為L,0,-0.2,對應函數(shù)為
f(x) = 0 - 0.2 * x
根據(jù)閱讀長度,可以計算分數(shù)閾值。 那些大于閾值的被認為是有效的并且可以被輸出。 L表示線性函數(shù)。 此外,它還支持其他類型的函數(shù),例如常量、自然對數(shù)等dnastar序列比對,更多選擇請參考官方文檔。
一次讀取可能有多個有效值。 輸出時,并不是全部輸出,而是只輸出-k參數(shù)指定的N。 -k 參數(shù)的默認值為 5。
輸出結(jié)果以SAM格式保存,默認輸出到屏幕。 可以通過-S參數(shù)指定輸出文件。
通常情況下,默認參數(shù)就可以滿足我們的需求。單端數(shù)據(jù)比較的用法如下:
hisat -x hg19 -p 20 -U reads.fq -S align.sam
雙端數(shù)據(jù)的用法如下
hisat -x hg19 -p 20 -1 R1.fq -2 R2.fq -S align.sam
·結(jié)尾·
—如果您喜歡,請分享給您的朋友 —
如有侵權(quán)請聯(lián)系刪除!
Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務(wù)提供商
13262879759
微信二維碼