你好,歡迎進(jìn)入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!
發(fā)布時(shí)間:2023-06-06
瀏覽次數(shù):0
完成以上操作后,就可以進(jìn)行量化了。 對于參考轉(zhuǎn)錄組,通常采用比較和量化的方法。 在這里,我使用 STAR 進(jìn)行量化。
一、STAR介紹與安裝 1.1. 介紹
STAR全稱toadnastar序列比對,是著名項(xiàng)目使用的RNA-seq比對軟件。 STAR使用底層C++語言編譯,可在多核上運(yùn)行,比對速度極快。 與其他兩款常用的參考轉(zhuǎn)錄組比對軟件相比dnastar序列比對,具有更高的獨(dú)特比對率。 與GATK的良好兼容性使得RNA-seq更容易發(fā)現(xiàn)基因突變。 據(jù)悉,10X的單細(xì)胞轉(zhuǎn)錄組上游軟件也是基于STAR的。
下載地址為; 創(chuàng)建的索引文件和可以用來建立索引的文件的下載地址是。 值得注意的是,本站索引僅適用于star2.7.4a,其他版本需要自行創(chuàng)建。
1.2. 安裝
如果后期有融合基因等需求,一定要注意版本。
1.2.1、自行編譯
可以下載源碼自行編譯安裝。 STAR 只依賴于最基本的 gcc 庫。
## 適用于Ubuntu
sudo apt-get update
sudo apt-get install g++
sudo apt-get install make
## 適用于Red Hat, CentOS和Fedora
sudo yum update
sudo yum install make
sudo yum install gcc-c++
sudo yum install glibc-static
## 適用于SUSE
sudo zypper update
sudo zypper in gcc gcc-c++
wget https://github.com/alexdobin/STAR/archive/2.7.1a.tar.gz
tar -xzf 2.7.1a.tar.gz
cd STAR-2.7.1a
make STAR
1.2.2、conda安裝
conda install -c bioconda star ## 默認(rèn)安裝conda上的最新版
1.3. 基本流程
STAR的基本過程包括兩個步驟:
基因組索引創(chuàng)建:在這一步中,用戶需要提供基因組參考序列(FASTA文件)和注釋文件(GTF文件)。 它只需要創(chuàng)建一次,就可以用于所有后續(xù)的比較。
將讀數(shù)與基因組對齊。
2.基因組索引的構(gòu)建 2.1. 基本參數(shù)
STAR --runThreadN NumberOfThreads \\
--runMode genomeGenerate \\
--genomeDir /path/to/genomeDir \\
--genomeFastaFiles /path/to/genome/fasta1 /path/to/genome/fasta2 ... \\
--sjdbGTFfile /path/to/annotations.gtf \\
--sjdbOverhang ReadLength-1
參數(shù)說明:
您也可以下載創(chuàng)建的索引
wget https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/GRCh38_gencode_v33_CTAT_lib_Apr062020.plug-n-play.tar.gz
tar -zxvf GRCh38_gencode_v33_CTAT_lib_Apr062020.plug-n-play.tar.gz
2.2. 建立索引時(shí)應(yīng)該包括什么//
這里有幾個定義
:指染色體組裝后的更新序列(相當(dāng)于更新包)。 包括兩種類型:
: 指基因組某一區(qū)域不同版本的序列,與原始基因組組裝序列平行,常存在于不同個體中,可以看作是對原始參考基因組的補(bǔ)充
索引時(shí)最好包括主要染色體(人類的 chr1-22、chrX、chrY 和 chrM)和未映射的染色體。 建索引的時(shí)候加入這個pair與索引的大小無關(guān),實(shí)際比對的時(shí)候會有大量的rRNA序列比對。 如果這些序列未??包含在構(gòu)建中,則此類讀取將被視為未映射到基因組,甚至錯誤映射到基因組中的其他位置。
但是,在建立索引時(shí),最好不要包括和。
也就是說,在 *.dna.. 中標(biāo)有 PRI() 數(shù)組的文件被推薦用于索引。
3. Fastq 文件與基因組的比較 3.1。 STAR 命令參數(shù)
mkdir 5.mapping
cd ./5.mapping/
ln -s ~/path/to/4.trimg/*.fq.gz ./
cat ../SRR_Acc_List.txt | while read id
do
echo -n "STAR --runThreadN 12 "
echo -n "--genomeDir ~/reference/linux/STAR/STAR_GRCh38_genecode_v33/ref_genome.fa.star.idx/ "
echo -n "--outSAMtype BAM SortedByCoordinate --outReadsUnmapped Fastx "
echo -n "--quantMode GeneCounts --readFilesCommand zcat --twopassMode Basic "
echo -n "--outFilterType BySJout --outFilterMultimapNmax 20 "
echo -n "--outFilterMismatchNmax 999 --outFilterMismatchNoverReadLmax 0.04 "
echo -n "--alignSJoverhangMin 8 --alignSJDBoverhangMin 1 "
echo -n "--chimSegmentMin 20 --chimJunctionOverhangMin 20 --chimOutJunctionFormat 1 "
echo -n "--alignIntronMin 20 --alignIntronMax 1000000 --alignMatesGapMax 1000000 "
echo -n "--chimSegmentReadGapMax 0 --alignSJstitchMismatchNmax 0 -1 0 0 "
echo "--readFilesIn ${id}_rm_1_val_1.fq.gz ${id}_rm_2_val_2.fq.gz --outFileNamePrefix ${id}"
done > star.sh
less star.sh
nohup bash star.sh &
3.2. 參數(shù)塊分析 3.2.1. 定量比較
STAR --runThreadN 12 # 12線程
--genomeDir ~/reference/linux/STAR/STAR_GRCh38_genecode_v33/ref_genome.fa.star.idx/ # 參考基因組索引所在位置
--outSAMtype BAM SortedByCoordinate # 輸出經(jīng)過坐標(biāo)排序的BAM文件
--outReadsUnmapped Fastx # 輸出沒能比對到基因組上的序列,格式與輸入文件相同
--quantMode GeneCounts TranscriptomeSAM # 輸出基因的Read Count文件以及轉(zhuǎn)錄本定量的SAM文件
--readFilesCommand zcat # 輸入的fastq文件經(jīng)過gzip壓縮
--twopassMode Basic # STAR特有,兩次對比模式
--readFilesIn ${id}_1_val_1.fq.gz ${id}_2_val_2.fq.gz # 輸入文件的名稱
--outFileNamePrefix ${id} # 輸出文件的前綴
## 以下參數(shù)設(shè)置來自ENCODE官方,有些解釋很難翻譯成中文,參見下圖
--outFilterMultimapNmax 20 # 如果一個讀段被多重比對超過20次,則認(rèn)為這個讀段不能被比對到基因組
--outFilterMismatchNmax 999 # 每對讀段允許錯配999個堿基(相當(dāng)于不過濾)
--outFilterMismatchNoverReadLmax 0.04 # 每對讀段允許出現(xiàn)讀長*4%的堿基錯配,即PE150允許2*150*0.04=12個堿基錯配
--alignIntronMin 20 # 內(nèi)含子最短是20個堿基
--alignIntronMax 1000000 # 內(nèi)含子最長是1000000個堿基
--alignMatesGapMax 1000000 # 一對讀段之間最長距離為1000000個堿基
3.2.2、可變剪切部分
## 以下參數(shù)設(shè)置來自ENCODE官方,有些解釋很難翻譯成中文,參見下圖
--outFilterType BySJout # 對junction進(jìn)行過濾以減少錯誤
--alignSJoverhangMin 8 # 未注釋過的junction的最少的overhang是8個堿基
--alignSJDBoverhangMin 1 # 注釋過的junction的最少的overhang是1個堿基
## 其他參數(shù)
--alignSJstitchMismatchNmax 0 -1 0 0 # 允許剪切點(diǎn)錯配的個數(shù)(-1代表無限制)四個數(shù)字分別代表(1)非經(jīng)典;(2)GT/AG或CT/AC;(3)GC/AG或CT/GC(4)AT/AC或GT/AT
3.2.3. 融合基因部分
--chimSegmentMin 20 # 每對嵌合讀段較短的一端至少有20個堿基,即PE150允許280+20結(jié)構(gòu)的融合基因
--chimOutJunctionFormat 1 # 輸出的Chimeric.out.junction文件可直接用于融合基因
--chimSegmentReadGapMax 0 # 嵌合讀段之間不允許空位
--chimJunctionOverhangMin 20 # 嵌合的junction的最少的overhang是20個堿基,為了過濾非常短的外顯子,即連續(xù)剪切事件
4.STAR參數(shù)圖
等著瞧吧。 . .
現(xiàn)在對比量化已經(jīng)完成,下期我們將對STAR的輸出文件進(jìn)行回顧分析
文末友情推薦
如有侵權(quán)請聯(lián)系刪除!
Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務(wù)提供商
13262879759
微信二維碼