国产精品高清一区二区三区不卡-国产精品一区二区三区免费视频-日韩免费高清一级毛片-亚洲欧美一区二区三区国产精品-日韩欧美一区二区三区不卡视频-亚欧免费视频一区二区三区-亚洲欧美日韩一区成人-欧美日韩视频综合一区无弹窗-精品日韩在线视频一区二区三区-国内精品视频一区二区三区

你好,歡迎進(jìn)入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!

誠(chéng)信、勤奮、創(chuàng)新、卓越

友好定價(jià)、專業(yè)客服支持、正版軟件一站式服務(wù)提供

13262879759

工作日:9:00-22:00

STAR:轉(zhuǎn)錄組數(shù)據(jù)比對(duì)工具簡(jiǎn)介

發(fā)布時(shí)間:2023-12-06

瀏覽次數(shù):0

STAR是一款專門針對(duì)數(shù)據(jù)的比較軟件。 比較速度非??臁?最大的優(yōu)點(diǎn)是靈敏度高。 GATK建議使用STAR比對(duì)dnastar序列比對(duì),然后進(jìn)行下游SNP分析。軟件源代碼存放在以下地址:

安裝過(guò)程如下

wget https://github.com/alexdobin/STAR/archive/2.6.1b.tar.gz
tar xzvf 2.6.1b.tar.gz

解壓后,bin/目錄下會(huì)提供編譯好的可執(zhí)行文件STAR。 與hisat等軟件不同dnastar序列比對(duì),STAR將所有功能集成到同一個(gè)程序中,并通過(guò)切換來(lái)執(zhí)行不同的任務(wù)。

1. 建立基因組索引

在進(jìn)行比較之前,您首先需要對(duì)基因組進(jìn)行索引。 對(duì)應(yīng)的索引是。 基本用法如下

STAR --runMode genomeGenerate \\
--runThreadN ?20 \\
--genomeFastaFiles hg19.fasta \\
--genomeDir hg19_STAR_db \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang ?149

構(gòu)建索引需要基因組的fasta和gtf文件,分別由 和 指定; 要構(gòu)建 STAR 索引,您需要指定輸出目錄。 該目錄必須提前創(chuàng)建。 該目錄下會(huì)生成很多文件,所以必須有寫權(quán)限。 ; 指定線程數(shù); 默認(rèn)值為100。實(shí)際設(shè)置時(shí),最佳值為max() - 1。

建立索引時(shí),也支持添加區(qū)間信息。 通過(guò)指定對(duì)應(yīng)的文件,多個(gè)文件之間用逗號(hào)分隔。 這種格式的文件是通過(guò)STAR比較生成的,通常用于2-pass比較模式。

官方推薦的fasta版本基因組不應(yīng)包含and。對(duì)于人類來(lái)說(shuō),NCBI的鏈接如下

ftp://ftp.ncbi.nlm.nih.gov/////ions/..p12/..re//

下方鏈接

ftp://ftp..org/pub/-93/fasta//dna/..dna..fa.gz

2. 運(yùn)行比較

STAR 支持 fasta/fastq 格式的輸入文件。 如果序列文件是壓縮的,則需要使用參數(shù)指定文件解壓方式。 對(duì)于gzip壓縮文件,有以下兩種寫法:

--readFilesCommand ?zcat
--readFilesCommand ?gzip -c

比對(duì)完成后會(huì)輸出很多文件,包括4類

日志檔案

薩姆文件

bam文件

剪切站點(diǎn)文件

每個(gè)文件都有一個(gè)預(yù)定義的名稱。 當(dāng)同時(shí)運(yùn)行多個(gè)樣本時(shí),為了區(qū)分它們,可以指定輸出文件的前綴。 前三種類型的文件相對(duì)容易理解。 剪切的站點(diǎn)文件實(shí)際上是根據(jù)情況估計(jì)的間隔信息??。 默認(rèn)文件名為 SJ.out.tab。

默認(rèn)輸出比較文件為 SAM 格式。 為了節(jié)省磁盤空間并方便下游分析,可以通過(guò)參數(shù)指定輸出bam文件。 該參數(shù)有兩個(gè)字段值。 第一個(gè)值指定文件類型。 值為 SAM 和 BAM。 kind,第二個(gè)值指定是否排序,取值范圍包括, ,寫法如下

--outSAMtype BAM SortedByCoordinate

上述寫法輸出排序后的bam文件。

dnastar序列比對(duì)_序列比對(duì)算法_序列比對(duì)測(cè)定的是

單端數(shù)據(jù)比較的基本用法如下

STAR \\
--runThreadN ?20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn reads.fq \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang ?149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate

雙端數(shù)據(jù)比較的基本用法如下

STAR ?\\
--runThreadN ?20 \\
--genomeDir hg19_STAR_db \\
--readFilesIn r1.fq.gz r2.fq.gz \\
--readFilesCommand ?zcat \\
--sjdbGTFfile hg19.gtf \\
--sjdbOverhang ?149 \\
--outFileNamePrefix sampleA \\
--outSAMtype BAM SortedByCoordinate

以上只是一個(gè)基本的比較。 STAR官方推薦使用2-pass比較模式,即比較兩次。 有兩種方法:

多2遍

第一種對(duì)齊方式與上面的用法一致。 比對(duì)后,每個(gè)樣本都會(huì)生成一個(gè)區(qū)間文件SJ.out.tab; 在第二次比對(duì)之前,重建基因組索引并添加所有樣本。 SJ.out.tab 文件,然后使用新的基因組索引重新對(duì)齊。 這種方法結(jié)合了多個(gè)樣本的信息,比較的靈敏度會(huì)更高。 缺點(diǎn)是操作比較麻煩。

每2遍

對(duì)于單個(gè)樣本,比較時(shí)直接添加--Basic參數(shù),軟件會(huì)自動(dòng)進(jìn)行兩次比較,將第一次比較的SJ.out.tab添加到索引中,然后再次比較。 該方法操作簡(jiǎn)單,適合單個(gè)樣品的兩遍比較。

如有侵權(quán)請(qǐng)聯(lián)系刪除!

13262879759

微信二維碼