国产精品高清一区二区三区不卡-国产精品一区二区三区免费视频-日韩免费高清一级毛片-亚洲欧美一区二区三区国产精品-日韩欧美一区二区三区不卡视频-亚欧免费视频一区二区三区-亚洲欧美日韩一区成人-欧美日韩视频综合一区无弹窗-精品日韩在线视频一区二区三区-国内精品视频一区二区三区

你好，歡迎進入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!

返回首頁

關(guān)于我們

聯(lián)系我們

二維碼

誠信、勤奮、創(chuàng)新、卓越

友好定價、專業(yè)客服支持、正版軟件一站式服務(wù)提供

13262879759

工作日：9:00-22:00

hisat2:比對基因組工具簡介

發(fā)布時間：2024-01-01

瀏覽次數(shù)：0

由于測序儀機器讀長的限制，建庫過程中需要先對DNA進行片段化，測序得到的序列只是基因組的部分序列。為了確定測序讀數(shù)在基因組上的位置，需要將讀數(shù)與參考基因組進行比較。這一步稱為。

進行時，需要考慮以下因素

1、硬件資源消耗

一般來說，基因組越大，占用的內(nèi)存就越多。對于大型基因組，例如人類基因組，優(yōu)化內(nèi)存消耗至關(guān)重要。

2、運行速度

隨著測序價格的下降以及數(shù)據(jù)深度挖掘的需要，測序量不斷增加，海量測序reads的比對必須足夠快。

3. 準確度

SNP/indel、測序錯誤率等因素會導致測序的reads與基因組上的原始序列之間存在幾個bp的錯誤，因此算法必須支持堿基錯配或缺口的存在。同時，由于測序的短序列可能與基因組上的多個位置同源，因此一次讀取將與基因組上的多個位置進行比較。雙端測序技術(shù)可以在一定程度上糾正多個位置，因為雙端讀段來自同一個DNA片段，并且基因組上的兩個位置相距并不算太遠，但僅憑這一點并不能解決所有同源比。是的，這需要比對算法對多個位置進行判斷和打分，才能給出比對結(jié)果的可靠性。

4.RNA

對于轉(zhuǎn)錄組數(shù)據(jù)來說，真核生物中選擇性剪接的存在導致cDNA片段在基因組上不連續(xù)，中間可能存在內(nèi)含子。比較轉(zhuǎn)錄組數(shù)據(jù)時，需要考慮跳過的剪接位點。

目前可用的工具有很多，比如bwa、hisat、star等，hisat是其中速度最快的，并且是軟件的升級版本。采用改進的FM索引算法，人類基因組僅需要約4.3GB內(nèi)存。還支持DNA和RNA數(shù)據(jù)的比較。該軟件的官方網(wǎng)站如下：

目前最新版本是。安裝過程如下

wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip
unzip hisat2-2.1.0-Linux_x86_64.zip

只需下載并解壓即可。

在進行比較之前，首先需要對參考基因組進行索引。基本用法如下

hisat2-build -p 20 ? hg19.fa hg19

對于轉(zhuǎn)錄組數(shù)據(jù)，構(gòu)建索引時，可以通過gtf文件獲取剪接位點和外顯子信息。用法如下

hisat2_extract_splice_sites.py hg19.gtf > hg19.ss
hisat2_extract_exons.py hg19.gtf > hg19.exon
hisat2-build -p 20 ?--ss hg19.ss --exon hg19.exon ?hg19.fa hg19

支持多種格式的輸入文件。常見的格式有以下兩種

法斯塔

快q

-f參數(shù)表示輸入文件格式為fasta，-q參數(shù)表示輸入文件格式為fastq。輸入文件可以是gzip壓縮文件，默認輸入文件是fastq格式。

對于單端數(shù)據(jù)，使用-U指定輸入文件；對于雙端數(shù)據(jù)dnastar序列比對，使用-1和-2分別指定R1端和R2端的輸入文件。

讀取被映射到基因組上的一個位置，我們稱之為“1”。軟件會對所有項目進行評分和判斷，符合篩選條件的為有效。僅輸出有效的項目。

與爆炸類似，每一種也都有相應的評分機制。 hisat從以下幾個方面進行評分：

1. 不匹配基數(shù)懲罰

堿基不匹配的懲罰是通過 --mp 參數(shù)指定的。它的值是兩個用逗號分隔的數(shù)字。第一個數(shù)字是最高處罰，第二個數(shù)字是最低處罰。

2. 讀取時的間隙懲罰

空位懲罰分為兩部分，第一次出現(xiàn)空位的懲罰和空位擴展的懲罰。讀取時的間隙懲罰通過 --rdg 參數(shù)指定。它的值是兩個用逗號分隔的數(shù)字。第一個數(shù)字是對空位第一個位置的罰分，第二個數(shù)字是對空位擴展的罰分。

3. 間隙罰分

間隙懲罰是通過 --rdg 參數(shù)指定的。它的值是兩個用逗號分隔的數(shù)字。第一個數(shù)字是對空位第一個位置的罰分，第二個數(shù)字是對空位擴展的罰分。

經(jīng)過一系列的懲罰機制后，每一個都會有相應的分數(shù)，然后用一個閾值來判斷這個分數(shù)是否符合有效的要求。

hisat 通過 --score--min 參數(shù)指定閾值。指定方法是與讀取程度相關(guān)的函數(shù)。默認值為L,0,-0.2，對應函數(shù)為

f(x) = 0 - 0.2 * x

根據(jù)閱讀長度，可以計算分數(shù)閾值。那些大于閾值的被認為是有效的并且可以被輸出。 L表示線性函數(shù)。此外，它還支持其他類型的函數(shù)，例如常量、自然對數(shù)等dnastar序列比對，更多選擇請參考官方文檔。

一次讀取可能有多個有效值。輸出時，并不是全部輸出，而是只輸出-k參數(shù)指定的N。 -k 參數(shù)的默認值為 5。

輸出結(jié)果以SAM格式保存，默認輸出到屏幕。可以通過-S參數(shù)指定輸出文件。

通常情況下，默認參數(shù)就可以滿足我們的需求。單端數(shù)據(jù)比較的用法如下：

hisat -x hg19 -p 20 -U reads.fq -S align.sam

雙端數(shù)據(jù)的用法如下

hisat -x hg19 -p 20 -1 R1.fq -2 R2.fq -S align.sam

·結(jié)尾·

—如果您喜歡，請分享給您的朋友 —

如有侵權(quán)請聯(lián)系刪除！

TAGS：基因組科普

上一篇：火了！這款代碼格式化工具就是團隊開發(fā)利器！

下一篇：程序員神器，IntelliJ IDEA 2018.1 正式發(fā)布

返回列表

聯(lián)系我們

電話：13262879759

地址：無錫市梁溪區(qū)五里新村421號

郵箱：Mingchen@yoousoft.com

備案號：蘇ICP備2023012045號-1

官方公眾號

官方公眾號

Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務(wù)提供商

Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務(wù)提供商

13262879759

微信二維碼