你好,歡迎進(jìn)入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!
發(fā)布時(shí)間:2023-06-06
瀏覽次數(shù):0
歡迎來到《生信修行指南》!
STAR是一款數(shù)據(jù)專用的比對(duì)軟件,比對(duì)速度非???。 最大的優(yōu)點(diǎn)是靈敏度高。 GATK推薦使用STAR比對(duì),然后進(jìn)行下游SNP分析。軟件源碼存放于dnastar序列比對(duì),地址如下
安裝過程如下
wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
tar xzvf 2.6.1b.tar.gz
解壓后在bin/目錄下提供了編譯好的可執(zhí)行文件STAR。 與hisat等軟件不同,STAR將所有功能集成在同一個(gè)程序中,通過切換執(zhí)行不同的任務(wù)。
1. 建立基因組索引
在運(yùn)行比對(duì)之前,首先需要在基因組上建立一個(gè)索引,對(duì)應(yīng)的基本用法如下
STAR --runMode genomeGenerate \\
--runThreadN ?20 \\
--genomeFastaFiles hg19.fasta \\
--genomeDir hg19_STAR_db \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang ?149
建索引需要基因組的fasta和gtf文件,由 和 這兩個(gè)參數(shù)分別指定; STAR建立索引需要指定一個(gè)輸出目錄,這個(gè)目錄必須提前創(chuàng)建好。 在這個(gè)目錄下,會(huì)生成很多文件,所以必須要有寫權(quán)限;指定線程數(shù); 默認(rèn)值為100,實(shí)際設(shè)置中最佳值為max()-1。
在建立索引時(shí),還支持添加區(qū)間信息。 通過指定對(duì)應(yīng)的文件dnastar序列比對(duì),多個(gè)文件之間用冒號(hào)隔開。 這些格式的文件都是通過STAR比對(duì)形成的,一般用于2-pass比對(duì)模式。
官方推薦的fasta版本的基因組應(yīng)該是不包含and的。對(duì)于人類,NCBI的鏈接如下
ftp://ftp.ncbi.nlm.nih.gov/////ions/..p12/..re//
鏈接如下
ftp://ftp..org/pub/-93/fasta//dna/..dna..fa.gz
2.運(yùn)行比較
STAR 支持 fasta/fastq 格式的輸入文件。 如果序列文件是壓縮文件,則需要使用參數(shù)指定解壓文件的方式。 對(duì)于gzip壓縮后的文件,有兩種寫法:
--readFilesCommand ?zcat
--readFilesCommand ?gzip -c
比對(duì)完成后會(huì)輸出很多文件,包括4類
日志文件
山姆文件
文件
剪切站點(diǎn)文件
每個(gè)文件都有一個(gè)預(yù)定義的名稱。 當(dāng)多個(gè)樣本同時(shí)運(yùn)行時(shí),為了區(qū)分它們,可以指定輸出文件的前綴。 前三類文件比較容易理解。 切點(diǎn)文件其實(shí)就是根據(jù)情況計(jì)算出來的區(qū)間信息。 默認(rèn)文件名為 SJ.out.tab。
默認(rèn)輸出比較文件為 SAM 格式。 為了節(jié)省c盤空間,方便下游分析,可以通過參數(shù)指定輸出的bam文件。 此參數(shù)有兩個(gè)數(shù)組值。 第一個(gè)值指定文件類型,取值有SAM和BAM兩種類型,第二個(gè)值指定是否排序,取值范圍包括,,寫法如下
--outSAMtype BAM SortedByCoordinate
以上寫法輸出排序后的bam文件。
推拉數(shù)據(jù)對(duì)比的基本用法如下
STAR \\
--runThreadN ?20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn reads.fq \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang ?149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate
雙端數(shù)據(jù)比較的基本用法如下
STAR ?\\
--runThreadN ?20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn r1.fq.gz r2.fq.gz \\
--readFilesCommand ?zcat \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang ?149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate
以上只是一個(gè)基本的比較。 STAR官方推薦使用2-pass比較模式,即兩次比較,如下兩種形式
多2遍
第一個(gè)比較和上面的用法是一致的。 比對(duì)后,每個(gè)樣本會(huì)形成一個(gè)區(qū)間文件SJ.out.tab; 第二次比對(duì)前,重新建立基因組索引并添加所有樣本的SJ.out.tab文件,然后與新的基因組索引重新比對(duì)。 這些方法結(jié)合了多個(gè)樣本的信息,比較的靈敏度會(huì)更高。 缺點(diǎn)是操作比較繁瑣。
每 2 遍
對(duì)于單個(gè)樣品,比對(duì)時(shí)直接加上--Basic參數(shù),軟件會(huì)手動(dòng)進(jìn)行兩次比對(duì),將第一個(gè)比對(duì)的SJ.out.tab添加到索引中,然后重新比對(duì)。 這些方法操作簡單,適用于單個(gè)樣品的 2-pass 比較。
更多參數(shù)和使用方法,請參考官方文檔。
·結(jié)尾·
—喜歡就分享給您的同事吧—
掃一掃關(guān)注微信,更多精彩內(nèi)容等你來!
如有侵權(quán)請聯(lián)系刪除!
Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務(wù)提供商
13262879759
微信二維碼