国产精品高清一区二区三区不卡-国产精品一区二区三区免费视频-日韩免费高清一级毛片-亚洲欧美一区二区三区国产精品-日韩欧美一区二区三区不卡视频-亚欧免费视频一区二区三区-亚洲欧美日韩一区成人-欧美日韩视频综合一区无弹窗-精品日韩在线视频一区二区三区-国内精品视频一区二区三区

你好,歡迎進(jìn)入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!

誠信、勤奮、創(chuàng)新、卓越

友好定價(jià)、專業(yè)客服支持、正版軟件一站式服務(wù)提供

13262879759

工作日:9:00-22:00

RNA-seq數(shù)據(jù)分析完全指北-06:比對到基因組并定量

發(fā)布時(shí)間:2023-06-06

瀏覽次數(shù):0

完成以上操作后,就可以進(jìn)行量化了。 對于參考轉(zhuǎn)錄組,通常采用比較和量化的方法。 在這里,我使用 STAR 進(jìn)行量化。

一、STAR介紹與安裝 1.1. 介紹

STAR全稱toadnastar序列比對,是著名項(xiàng)目使用的RNA-seq比對軟件。 STAR使用底層C++語言編譯,可在多核上運(yùn)行,比對速度極快。 與其他兩款常用的參考轉(zhuǎn)錄組比對軟件相比dnastar序列比對,具有更高的獨(dú)特比對率。 與GATK的良好兼容性使得RNA-seq更容易發(fā)現(xiàn)基因突變。 據(jù)悉,10X的單細(xì)胞轉(zhuǎn)錄組上游軟件也是基于STAR的。

下載地址為; 創(chuàng)建的索引文件和可以用來建立索引的文件的下載地址是。 值得注意的是,本站索引僅適用于star2.7.4a,其他版本需要自行創(chuàng)建。

1.2. 安裝

如果后期有融合基因等需求,一定要注意版本。

1.2.1、自行編譯

可以下載源碼自行編譯安裝。 STAR 只依賴于最基本的 gcc 庫。

## 適用于Ubuntusudo apt-get updatesudo apt-get install g++sudo apt-get install make
## 適用于Red Hat, CentOS和Fedorasudo yum updatesudo yum install makesudo yum install gcc-c++sudo yum install glibc-static
## 適用于SUSEsudo zypper updatesudo zypper in gcc gcc-c++
wget https://github.com/alexdobin/STAR/archive/2.7.1a.tar.gztar -xzf 2.7.1a.tar.gzcd STAR-2.7.1amake STAR

1.2.2、conda安裝

conda install -c bioconda star    ## 默認(rèn)安裝conda上的最新版

1.3. 基本流程

STAR的基本過程包括兩個步驟:

基因組索引創(chuàng)建:在這一步中,用戶需要提供基因組參考序列(FASTA文件)和注釋文件(GTF文件)。 它只需要創(chuàng)建一次,就可以用于所有后續(xù)的比較。

將讀數(shù)與基因組對齊。

2.基因組索引的構(gòu)建 2.1. 基本參數(shù)

STAR --runThreadN NumberOfThreads \\--runMode genomeGenerate \\--genomeDir /path/to/genomeDir \\--genomeFastaFiles /path/to/genome/fasta1 /path/to/genome/fasta2 ... \\--sjdbGTFfile /path/to/annotations.gtf \\--sjdbOverhang ReadLength-1

參數(shù)說明:

您也可以下載創(chuàng)建的索引

wget https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/GRCh38_gencode_v33_CTAT_lib_Apr062020.plug-n-play.tar.gztar -zxvf GRCh38_gencode_v33_CTAT_lib_Apr062020.plug-n-play.tar.gz

2.2. 建立索引時(shí)應(yīng)該包括什么//

這里有幾個定義

:指染色體組裝后的更新序列(相當(dāng)于更新包)。 包括兩種類型:

: 指基因組某一區(qū)域不同版本的序列,與原始基因組組裝序列平行,常存在于不同個體中,可以看作是對原始參考基因組的補(bǔ)充

索引時(shí)最好包括主要染色體(人類的 chr1-22、chrX、chrY 和 chrM)和未映射的染色體。 建索引的時(shí)候加入這個pair與索引的大小無關(guān),實(shí)際比對的時(shí)候會有大量的rRNA序列比對。 如果這些序列未??包含在構(gòu)建中,則此類讀取將被視為未映射到基因組,甚至錯誤映射到基因組中的其他位置。

但是,在建立索引時(shí),最好不要包括和。

也就是說,在 *.dna.. 中標(biāo)有 PRI() 數(shù)組的文件被推薦用于索引。

3. Fastq 文件與基因組的比較 3.1。 STAR 命令參數(shù)

mkdir 5.mappingcd ./5.mapping/
ln -s ~/path/to/4.trimg/*.fq.gz ./
cat ../SRR_Acc_List.txt | while read iddoecho -n "STAR --runThreadN 12 "echo -n "--genomeDir ~/reference/linux/STAR/STAR_GRCh38_genecode_v33/ref_genome.fa.star.idx/ "echo -n "--outSAMtype BAM SortedByCoordinate --outReadsUnmapped Fastx "echo -n "--quantMode GeneCounts --readFilesCommand zcat --twopassMode Basic "echo -n "--outFilterType BySJout --outFilterMultimapNmax 20 "echo -n "--outFilterMismatchNmax 999 --outFilterMismatchNoverReadLmax 0.04 "echo -n "--alignSJoverhangMin 8 --alignSJDBoverhangMin 1 "echo -n "--chimSegmentMin 20 --chimJunctionOverhangMin 20 --chimOutJunctionFormat 1 "echo -n "--alignIntronMin 20 --alignIntronMax 1000000 --alignMatesGapMax 1000000 "echo -n "--chimSegmentReadGapMax 0 --alignSJstitchMismatchNmax 0 -1 0 0 "echo "--readFilesIn ${id}_rm_1_val_1.fq.gz ${id}_rm_2_val_2.fq.gz --outFileNamePrefix ${id}"done > star.sh
less star.shnohup bash star.sh &

3.2. 參數(shù)塊分析 3.2.1. 定量比較

STAR --runThreadN 12    # 12線程--genomeDir ~/reference/linux/STAR/STAR_GRCh38_genecode_v33/ref_genome.fa.star.idx/    # 參考基因組索引所在位置--outSAMtype BAM SortedByCoordinate    # 輸出經(jīng)過坐標(biāo)排序的BAM文件--outReadsUnmapped Fastx   # 輸出沒能比對到基因組上的序列,格式與輸入文件相同--quantMode GeneCounts TranscriptomeSAM    # 輸出基因的Read Count文件以及轉(zhuǎn)錄本定量的SAM文件--readFilesCommand zcat    # 輸入的fastq文件經(jīng)過gzip壓縮--twopassMode Basic    # STAR特有,兩次對比模式--readFilesIn ${id}_1_val_1.fq.gz ${id}_2_val_2.fq.gz    # 輸入文件的名稱--outFileNamePrefix ${id}    # 輸出文件的前綴
## 以下參數(shù)設(shè)置來自ENCODE官方,有些解釋很難翻譯成中文,參見下圖--outFilterMultimapNmax 20 # 如果一個讀段被多重比對超過20次,則認(rèn)為這個讀段不能被比對到基因組--outFilterMismatchNmax 999 # 每對讀段允許錯配999個堿基(相當(dāng)于不過濾)--outFilterMismatchNoverReadLmax 0.04 # 每對讀段允許出現(xiàn)讀長*4%的堿基錯配,即PE150允許2*150*0.04=12個堿基錯配--alignIntronMin 20 # 內(nèi)含子最短是20個堿基--alignIntronMax 1000000 # 內(nèi)含子最長是1000000個堿基--alignMatesGapMax 1000000 # 一對讀段之間最長距離為1000000個堿基

3.2.2、可變剪切部分

## 以下參數(shù)設(shè)置來自ENCODE官方,有些解釋很難翻譯成中文,參見下圖--outFilterType BySJout    # 對junction進(jìn)行過濾以減少錯誤--alignSJoverhangMin 8    # 未注釋過的junction的最少的overhang是8個堿基--alignSJDBoverhangMin 1    # 注釋過的junction的最少的overhang是1個堿基
## 其他參數(shù)--alignSJstitchMismatchNmax 0 -1 0 0 # 允許剪切點(diǎn)錯配的個數(shù)(-1代表無限制)四個數(shù)字分別代表(1)非經(jīng)典;(2)GT/AG或CT/AC;(3)GC/AG或CT/GC(4)AT/AC或GT/AT

3.2.3. 融合基因部分

--chimSegmentMin 20    # 每對嵌合讀段較短的一端至少有20個堿基,即PE150允許280+20結(jié)構(gòu)的融合基因--chimOutJunctionFormat 1    # 輸出的Chimeric.out.junction文件可直接用于融合基因--chimSegmentReadGapMax 0    # 嵌合讀段之間不允許空位--chimJunctionOverhangMin 20    # 嵌合的junction的最少的overhang是20個堿基,為了過濾非常短的外顯子,即連續(xù)剪切事件

4.STAR參數(shù)圖

序列比對 blast_blast序列比對_dnastar序列比對

等著瞧吧。 . .

現(xiàn)在對比量化已經(jīng)完成,下期我們將對STAR的輸出文件進(jìn)行回顧分析

文末友情推薦

如有侵權(quán)請聯(lián)系刪除!

13262879759

微信二維碼