国产精品高清一区二区三区不卡-国产精品一区二区三区免费视频-日韩免费高清一级毛片-亚洲欧美一区二区三区国产精品-日韩欧美一区二区三区不卡视频-亚欧免费视频一区二区三区-亚洲欧美日韩一区成人-欧美日韩视频综合一区无弹窗-精品日韩在线视频一区二区三区-国内精品视频一区二区三区

你好,歡迎進入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!

誠信、勤奮、創(chuàng)新、卓越

友好定價、專業(yè)客服支持、正版軟件一站式服務(wù)提供

13262879759

工作日:9:00-22:00

hisat2:比對基因組工具簡介

發(fā)布時間:2024-01-01

瀏覽次數(shù):0

由于測序儀機器讀長的限制,建庫過程中需要先對DNA進行片段化,測序得到的序列只是基因組的部分序列。 為了確定測序讀數(shù)在基因組上的位置,需要將讀數(shù)與參考基因組進行比較。 這一步稱為。

進行時,需要考慮以下因素

1、硬件資源消耗

一般來說,基因組越大,占用的內(nèi)存就越多。 對于大型基因組,例如人類基因組,優(yōu)化內(nèi)存消耗至關(guān)重要。

2、運行速度

隨著測序價格的下降以及數(shù)據(jù)深度挖掘的需要,測序量不斷增加,海量測序reads的比對必須足夠快。

3. 準確度

SNP/indel、測序錯誤率等因素會導致測序的reads與基因組上的原始序列之間存在幾個bp的錯誤,因此算法必須支持堿基錯配或缺口的存在。 同時,由于測序的短序列可能與基因組上的多個位置同源,因此一次讀取將與基因組上的多個位置進行比較。 雙端測序技術(shù)可以在一定程度上糾正多個位置,因為雙端讀段來自同一個DNA片段,并且基因組上的兩個位置相距并不算太遠,但僅憑這一點并不能解決所有同源比。 是的,這需要比對算法對多個位置進行判斷和打分,才能給出比對結(jié)果的可靠性。

4.RNA

對于轉(zhuǎn)錄組數(shù)據(jù)來說,真核生物中選擇性剪接的存在導致cDNA片段在基因組上不連續(xù),中間可能存在內(nèi)含子。 比較轉(zhuǎn)錄組數(shù)據(jù)時,需要考慮跳過的剪接位點。

目前可用的工具有很多,比如bwa、hisat、star等,hisat是其中速度最快的,并且是軟件的升級版本。 采用改進的FM索引算法,人類基因組僅需要約4.3GB內(nèi)存。還支持DNA和RNA數(shù)據(jù)的比較。 該軟件的官方網(wǎng)站如下:

目前最新版本是。 安裝過程如下

wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
unzip hisat2-2.1.0-Linux_x86_64.zip

只需下載并解壓即可。

在進行比較之前,首先需要對參考基因組進行索引。 基本用法如下

hisat2-build -p 20 ? hg19.fa hg19

對于轉(zhuǎn)錄組數(shù)據(jù),構(gòu)建索引時,可以通過gtf文件獲取剪接位點和外顯子信息。 用法如下

hisat2_extract_splice_sites.py hg19.gtf > hg19.ss
hisat2_extract_exons.py hg19.gtf > hg19.exon
hisat2-build -p 20 ?--ss hg19.ss --exon hg19.exon ?hg19.fa hg19

支持多種格式的輸入文件。 常見的格式有以下兩種

法斯塔

快q

-f參數(shù)表示輸入文件格式為fasta,-q參數(shù)表示輸入文件格式為fastq。 輸入文件可以是gzip壓縮文件,默認輸入文件是fastq格式。

對于單端數(shù)據(jù),使用-U指定輸入文件; 對于雙端數(shù)據(jù)dnastar序列比對,使用-1和-2分別指定R1端和R2端的輸入文件。

讀取被映射到基因組上的一個位置,我們稱之為“1”。 軟件會對所有項目進行評分和判斷,符合篩選條件的為有效。 僅輸出有效的項目。

與爆炸類似,每一種也都有相應的評分機制。 hisat從以下幾個方面進行評分:

1. 不匹配基數(shù)懲罰

堿基不匹配的懲罰是通過 --mp 參數(shù)指定的。 它的值是兩個用逗號分隔的數(shù)字。 第一個數(shù)字是最高處罰,第二個數(shù)字是最低處罰。

2. 讀取時的間隙懲罰

空位懲罰分為兩部分,第一次出現(xiàn)空位的懲罰和空位擴展的懲罰。 讀取時的間隙懲罰通過 --rdg 參數(shù)指定。 它的值是兩個用逗號分隔的數(shù)字。 第一個數(shù)字是對空位第一個位置的罰分,第二個數(shù)字是對空位擴展的罰分。

3. 間隙罰分

間隙懲罰是通過 --rdg 參數(shù)指定的。 它的值是兩個用逗號分隔的數(shù)字。 第一個數(shù)字是對空位第一個位置的罰分,第二個數(shù)字是對空位擴展的罰分。

經(jīng)過一系列的懲罰機制后,每一個都會有相應的分數(shù),然后用一個閾值來判斷這個分數(shù)是否符合有效的要求。

hisat 通過 --score--min 參數(shù)指定閾值。 指定方法是與讀取程度相關(guān)的函數(shù)。 默認值為L,0,-0.2,對應函數(shù)為

f(x) = 0 - 0.2 * x

根據(jù)閱讀長度,可以計算分數(shù)閾值。 那些大于閾值的被認為是有效的并且可以被輸出。 L表示線性函數(shù)。 此外,它還支持其他類型的函數(shù),例如常量、自然對數(shù)等dnastar序列比對,更多選擇請參考官方文檔。

一次讀取可能有多個有效值。 輸出時,并不是全部輸出,而是只輸出-k參數(shù)指定的N。 -k 參數(shù)的默認值為 5。

輸出結(jié)果以SAM格式保存,默認輸出到屏幕。 可以通過-S參數(shù)指定輸出文件。

通常情況下,默認參數(shù)就可以滿足我們的需求。單端數(shù)據(jù)比較的用法如下:

hisat -x hg19 -p 20 -U reads.fq -S align.sam

雙端數(shù)據(jù)的用法如下

hisat -x hg19 -p 20 -1 R1.fq -2 R2.fq -S align.sam

·結(jié)尾·

—如果您喜歡,請分享給您的朋友 —

如有侵權(quán)請聯(lián)系刪除!

13262879759

微信二維碼