国产精品高清一区二区三区不卡-国产精品一区二区三区免费视频-日韩免费高清一级毛片-亚洲欧美一区二区三区国产精品-日韩欧美一区二区三区不卡视频-亚欧免费视频一区二区三区-亚洲欧美日韩一区成人-欧美日韩视频综合一区无弹窗-精品日韩在线视频一区二区三区-国内精品视频一区二区三区

你好,歡迎進(jìn)入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!

誠信、勤奮、創(chuàng)新、卓越

友好定價(jià)、專業(yè)客服支持、正版軟件一站式服務(wù)提供

13262879759

工作日:9:00-22:00

STAR:轉(zhuǎn)錄組數(shù)據(jù)比對(duì)工具簡介

發(fā)布時(shí)間:2023-06-06

瀏覽次數(shù):0

歡迎來到《生信修行指南》!

STAR是一款數(shù)據(jù)專用的比對(duì)軟件,比對(duì)速度非???。 最大的優(yōu)點(diǎn)是靈敏度高。 GATK推薦使用STAR比對(duì),然后進(jìn)行下游SNP分析。軟件源碼存放于dnastar序列比對(duì),地址如下

安裝過程如下

wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
tar xzvf 2.6.1b.tar.gz

解壓后在bin/目錄下提供了編譯好的可執(zhí)行文件STAR。 與hisat等軟件不同,STAR將所有功能集成在同一個(gè)程序中,通過切換執(zhí)行不同的任務(wù)。

1. 建立基因組索引

在運(yùn)行比對(duì)之前,首先需要在基因組上建立一個(gè)索引,對(duì)應(yīng)的基本用法如下

STAR --runMode genomeGenerate \\
--runThreadN ?20 \\
--genomeFastaFiles hg19.fasta \\
--genomeDir hg19_STAR_db \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang ?149

建索引需要基因組的fasta和gtf文件,由 和 這兩個(gè)參數(shù)分別指定; STAR建立索引需要指定一個(gè)輸出目錄,這個(gè)目錄必須提前創(chuàng)建好。 在這個(gè)目錄下,會(huì)生成很多文件,所以必須要有寫權(quán)限;指定線程數(shù); 默認(rèn)值為100,實(shí)際設(shè)置中最佳值為max()-1。

在建立索引時(shí),還支持添加區(qū)間信息。 通過指定對(duì)應(yīng)的文件dnastar序列比對(duì),多個(gè)文件之間用冒號(hào)隔開。 這些格式的文件都是通過STAR比對(duì)形成的,一般用于2-pass比對(duì)模式。

官方推薦的fasta版本的基因組應(yīng)該是不包含and的。對(duì)于人類,NCBI的鏈接如下

ftp://ftp.ncbi.nlm.nih.gov/////ions/..p12/..re//

鏈接如下

ftp://ftp..org/pub/-93/fasta//dna/..dna..fa.gz

2.運(yùn)行比較

STAR 支持 fasta/fastq 格式的輸入文件。 如果序列文件是壓縮文件,則需要使用參數(shù)指定解壓文件的方式。 對(duì)于gzip壓縮后的文件,有兩種寫法:

--readFilesCommand ?zcat
--readFilesCommand ?gzip -c

比對(duì)完成后會(huì)輸出很多文件,包括4類

日志文件

山姆文件

文件

剪切站點(diǎn)文件

每個(gè)文件都有一個(gè)預(yù)定義的名稱。 當(dāng)多個(gè)樣本同時(shí)運(yùn)行時(shí),為了區(qū)分它們,可以指定輸出文件的前綴。 前三類文件比較容易理解。 切點(diǎn)文件其實(shí)就是根據(jù)情況計(jì)算出來的區(qū)間信息。 默認(rèn)文件名為 SJ.out.tab。

默認(rèn)輸出比較文件為 SAM 格式。 為了節(jié)省c盤空間,方便下游分析,可以通過參數(shù)指定輸出的bam文件。 此參數(shù)有兩個(gè)數(shù)組值。 第一個(gè)值指定文件類型,取值有SAM和BAM兩種類型,第二個(gè)值指定是否排序,取值范圍包括,,寫法如下

--outSAMtype BAM SortedByCoordinate

以上寫法輸出排序后的bam文件。

推拉數(shù)據(jù)對(duì)比的基本用法如下

STAR \\
--runThreadN ?20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn reads.fq \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang ?149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate

雙端數(shù)據(jù)比較的基本用法如下

STAR ?\\
--runThreadN ?20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn r1.fq.gz r2.fq.gz \\
--readFilesCommand ?zcat \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang ?149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate

以上只是一個(gè)基本的比較。 STAR官方推薦使用2-pass比較模式,即兩次比較,如下兩種形式

多2遍

第一個(gè)比較和上面的用法是一致的。 比對(duì)后,每個(gè)樣本會(huì)形成一個(gè)區(qū)間文件SJ.out.tab; 第二次比對(duì)前,重新建立基因組索引并添加所有樣本的SJ.out.tab文件,然后與新的基因組索引重新比對(duì)。 這些方法結(jié)合了多個(gè)樣本的信息,比較的靈敏度會(huì)更高。 缺點(diǎn)是操作比較繁瑣。

每 2 遍

對(duì)于單個(gè)樣品,比對(duì)時(shí)直接加上--Basic參數(shù),軟件會(huì)手動(dòng)進(jìn)行兩次比對(duì),將第一個(gè)比對(duì)的SJ.out.tab添加到索引中,然后重新比對(duì)。 這些方法操作簡單,適用于單個(gè)樣品的 2-pass 比較。

更多參數(shù)和使用方法,請參考官方文檔。

·結(jié)尾·

—喜歡就分享給您的同事吧—

掃一掃關(guān)注微信,更多精彩內(nèi)容等你來!

如有侵權(quán)請聯(lián)系刪除!

13262879759

微信二維碼