你好,歡迎進(jìn)入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!
發(fā)布時(shí)間:2023-12-06
瀏覽次數(shù):0
STAR是一款專門針對(duì)數(shù)據(jù)的比較軟件。 比較速度非??臁?最大的優(yōu)點(diǎn)是靈敏度高。 GATK建議使用STAR比對(duì)dnastar序列比對(duì),然后進(jìn)行下游SNP分析。軟件源代碼存放在以下地址:
安裝過(guò)程如下
wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
tar xzvf 2.6.1b.tar.gz
解壓后,bin/目錄下會(huì)提供編譯好的可執(zhí)行文件STAR。 與hisat等軟件不同dnastar序列比對(duì),STAR將所有功能集成到同一個(gè)程序中,并通過(guò)切換來(lái)執(zhí)行不同的任務(wù)。
1. 建立基因組索引
在進(jìn)行比較之前,您首先需要對(duì)基因組進(jìn)行索引。 對(duì)應(yīng)的索引是。 基本用法如下
STAR --runMode genomeGenerate \\
--runThreadN ?20 \\
--genomeFastaFiles hg19.fasta \\
--genomeDir hg19_STAR_db \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang ?149
構(gòu)建索引需要基因組的fasta和gtf文件,分別由 和 指定; 要構(gòu)建 STAR 索引,您需要指定輸出目錄。 該目錄必須提前創(chuàng)建。 該目錄下會(huì)生成很多文件,所以必須有寫權(quán)限。 ; 指定線程數(shù); 默認(rèn)值為100。實(shí)際設(shè)置時(shí),最佳值為max() - 1。
建立索引時(shí),也支持添加區(qū)間信息。 通過(guò)指定對(duì)應(yīng)的文件,多個(gè)文件之間用逗號(hào)分隔。 這種格式的文件是通過(guò)STAR比較生成的,通常用于2-pass比較模式。
官方推薦的fasta版本基因組不應(yīng)包含and。對(duì)于人類來(lái)說(shuō),NCBI的鏈接如下
ftp://ftp.ncbi.nlm.nih.gov/////ions/..p12/..re//
下方鏈接
ftp://ftp..org/pub/-93/fasta//dna/..dna..fa.gz
2. 運(yùn)行比較
STAR 支持 fasta/fastq 格式的輸入文件。 如果序列文件是壓縮的,則需要使用參數(shù)指定文件解壓方式。 對(duì)于gzip壓縮文件,有以下兩種寫法:
--readFilesCommand ?zcat
--readFilesCommand ?gzip -c
比對(duì)完成后會(huì)輸出很多文件,包括4類
日志檔案
薩姆文件
bam文件
剪切站點(diǎn)文件
每個(gè)文件都有一個(gè)預(yù)定義的名稱。 當(dāng)同時(shí)運(yùn)行多個(gè)樣本時(shí),為了區(qū)分它們,可以指定輸出文件的前綴。 前三種類型的文件相對(duì)容易理解。 剪切的站點(diǎn)文件實(shí)際上是根據(jù)情況估計(jì)的間隔信息??。 默認(rèn)文件名為 SJ.out.tab。
默認(rèn)輸出比較文件為 SAM 格式。 為了節(jié)省磁盤空間并方便下游分析,可以通過(guò)參數(shù)指定輸出bam文件。 該參數(shù)有兩個(gè)字段值。 第一個(gè)值指定文件類型。 值為 SAM 和 BAM。 kind,第二個(gè)值指定是否排序,取值范圍包括, ,寫法如下
--outSAMtype BAM SortedByCoordinate
上述寫法輸出排序后的bam文件。
單端數(shù)據(jù)比較的基本用法如下
STAR \\
--runThreadN ?20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn reads.fq \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang ?149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate
雙端數(shù)據(jù)比較的基本用法如下
STAR ?\\
--runThreadN ?20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn r1.fq.gz r2.fq.gz \\
--readFilesCommand ?zcat \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang ?149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate
以上只是一個(gè)基本的比較。 STAR官方推薦使用2-pass比較模式,即比較兩次。 有兩種方法:
多2遍
第一種對(duì)齊方式與上面的用法一致。 比對(duì)后,每個(gè)樣本都會(huì)生成一個(gè)區(qū)間文件SJ.out.tab; 在第二次比對(duì)之前,重建基因組索引并添加所有樣本。 SJ.out.tab 文件,然后使用新的基因組索引重新對(duì)齊。 這種方法結(jié)合了多個(gè)樣本的信息,比較的靈敏度會(huì)更高。 缺點(diǎn)是操作比較麻煩。
每2遍
對(duì)于單個(gè)樣本,比較時(shí)直接添加--Basic參數(shù),軟件會(huì)自動(dòng)進(jìn)行兩次比較,將第一次比較的SJ.out.tab添加到索引中,然后再次比較。 該方法操作簡(jiǎn)單,適合單個(gè)樣品的兩遍比較。
如有侵權(quán)請(qǐng)聯(lián)系刪除!
Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務(wù)提供商
13262879759
微信二維碼