国产精品高清一区二区三区不卡-国产精品一区二区三区免费视频-日韩免费高清一级毛片-亚洲欧美一区二区三区国产精品-日韩欧美一区二区三区不卡视频-亚欧免费视频一区二区三区-亚洲欧美日韩一区成人-欧美日韩视频综合一区无弹窗-精品日韩在线视频一区二区三区-国内精品视频一区二区三区

你好，歡迎進(jìn)入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!

返回首頁

關(guān)于我們

聯(lián)系我們

二維碼

誠信、勤奮、創(chuàng)新、卓越

友好定價(jià)、專業(yè)客服支持、正版軟件一站式服務(wù)提供

13262879759

工作日：9:00-22:00

RNA-seq數(shù)據(jù)分析完全指北-06：比對到基因組并定量

發(fā)布時(shí)間：2023-06-06

瀏覽次數(shù)：0

完成以上操作后，就可以進(jìn)行量化了。對于參考轉(zhuǎn)錄組，通常采用比較和量化的方法。在這里，我使用 STAR 進(jìn)行量化。

一、STAR介紹與安裝 1.1．介紹

STAR全稱toadnastar序列比對，是著名項(xiàng)目使用的RNA-seq比對軟件。 STAR使用底層C++語言編譯，可在多核上運(yùn)行，比對速度極快。與其他兩款常用的參考轉(zhuǎn)錄組比對軟件相比dnastar序列比對，具有更高的獨(dú)特比對率。與GATK的良好兼容性使得RNA-seq更容易發(fā)現(xiàn)基因突變。據(jù)悉，10X的單細(xì)胞轉(zhuǎn)錄組上游軟件也是基于STAR的。

下載地址為；創(chuàng)建的索引文件和可以用來建立索引的文件的下載地址是。值得注意的是，本站索引僅適用于star2.7.4a，其他版本需要自行創(chuàng)建。

1.2. 安裝

如果后期有融合基因等需求，一定要注意版本。

1.2.1、自行編譯

可以下載源碼自行編譯安裝。 STAR 只依賴于最基本的 gcc 庫。

## 適用于Ubuntusudo apt-get updatesudo apt-get install g++sudo apt-get install make
## 適用于Red Hat, CentOS和Fedorasudo yum updatesudo yum install makesudo yum install gcc-c++sudo yum install glibc-static
## 適用于SUSEsudo zypper updatesudo zypper in gcc gcc-c++
wget https://github.com/alexdobin/STAR/archive/2.7.1a.tar.gztar -xzf 2.7.1a.tar.gzcd STAR-2.7.1amake STAR

1.2.2、conda安裝

conda install -c bioconda star    ## 默認(rèn)安裝conda上的最新版

1.3. 基本流程

STAR的基本過程包括兩個步驟：

基因組索引創(chuàng)建：在這一步中，用戶需要提供基因組參考序列（FASTA文件）和注釋文件（GTF文件）。它只需要創(chuàng)建一次，就可以用于所有后續(xù)的比較。

將讀數(shù)與基因組對齊。

2.基因組索引的構(gòu)建 2.1．基本參數(shù)

STAR --runThreadN NumberOfThreads \\--runMode genomeGenerate \\--genomeDir /path/to/genomeDir \\--genomeFastaFiles /path/to/genome/fasta1 /path/to/genome/fasta2 ... \\--sjdbGTFfile /path/to/annotations.gtf \\--sjdbOverhang ReadLength-1

參數(shù)說明：

您也可以下載創(chuàng)建的索引

wget https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/GRCh38_gencode_v33_CTAT_lib_Apr062020.plug-n-play.tar.gztar -zxvf GRCh38_gencode_v33_CTAT_lib_Apr062020.plug-n-play.tar.gz

2.2. 建立索引時(shí)應(yīng)該包括什么//

這里有幾個定義

：指染色體組裝后的更新序列（相當(dāng)于更新包）。包括兩種類型：

: 指基因組某一區(qū)域不同版本的序列，與原始基因組組裝序列平行，常存在于不同個體中，可以看作是對原始參考基因組的補(bǔ)充

索引時(shí)最好包括主要染色體（人類的 chr1-22、chrX、chrY 和 chrM）和未映射的染色體。建索引的時(shí)候加入這個pair與索引的大小無關(guān)，實(shí)際比對的時(shí)候會有大量的rRNA序列比對。如果這些序列未??包含在構(gòu)建中，則此類讀取將被視為未映射到基因組，甚至錯誤映射到基因組中的其他位置。

但是，在建立索引時(shí)，最好不要包括和。

也就是說，在 *.dna.. 中標(biāo)有 PRI() 數(shù)組的文件被推薦用于索引。

3. Fastq 文件與基因組的比較 3.1。 STAR 命令參數(shù)

mkdir 5.mappingcd ./5.mapping/
ln -s ~/path/to/4.trimg/*.fq.gz ./
cat ../SRR_Acc_List.txt | while read iddoecho -n "STAR --runThreadN 12 "echo -n "--genomeDir ~/reference/linux/STAR/STAR_GRCh38_genecode_v33/ref_genome.fa.star.idx/ "echo -n "--outSAMtype BAM SortedByCoordinate --outReadsUnmapped Fastx "echo -n "--quantMode GeneCounts --readFilesCommand zcat --twopassMode Basic "echo -n "--outFilterType BySJout --outFilterMultimapNmax 20 "echo -n "--outFilterMismatchNmax 999 --outFilterMismatchNoverReadLmax 0.04 "echo -n "--alignSJoverhangMin 8 --alignSJDBoverhangMin 1 "echo -n "--chimSegmentMin 20 --chimJunctionOverhangMin 20 --chimOutJunctionFormat 1 "echo -n "--alignIntronMin 20 --alignIntronMax 1000000 --alignMatesGapMax 1000000 "echo -n "--chimSegmentReadGapMax 0 --alignSJstitchMismatchNmax 0 -1 0 0 "echo "--readFilesIn ${id}_rm_1_val_1.fq.gz ${id}_rm_2_val_2.fq.gz --outFileNamePrefix ${id}"done > star.sh
less star.shnohup bash star.sh &

3.2. 參數(shù)塊分析 3.2.1．定量比較

STAR --runThreadN 12    # 12線程--genomeDir ~/reference/linux/STAR/STAR_GRCh38_genecode_v33/ref_genome.fa.star.idx/    # 參考基因組索引所在位置--outSAMtype BAM SortedByCoordinate    # 輸出經(jīng)過坐標(biāo)排序的BAM文件--outReadsUnmapped Fastx   # 輸出沒能比對到基因組上的序列，格式與輸入文件相同--quantMode GeneCounts TranscriptomeSAM    # 輸出基因的Read Count文件以及轉(zhuǎn)錄本定量的SAM文件--readFilesCommand zcat    # 輸入的fastq文件經(jīng)過gzip壓縮--twopassMode Basic    # STAR特有，兩次對比模式--readFilesIn ${id}_1_val_1.fq.gz ${id}_2_val_2.fq.gz    # 輸入文件的名稱--outFileNamePrefix ${id}    # 輸出文件的前綴
## 以下參數(shù)設(shè)置來自ENCODE官方，有些解釋很難翻譯成中文，參見下圖--outFilterMultimapNmax 20    # 如果一個讀段被多重比對超過20次，則認(rèn)為這個讀段不能被比對到基因組--outFilterMismatchNmax 999    # 每對讀段允許錯配999個堿基（相當(dāng)于不過濾）--outFilterMismatchNoverReadLmax 0.04    # 每對讀段允許出現(xiàn)讀長*4%的堿基錯配，即PE150允許2*150*0.04=12個堿基錯配--alignIntronMin 20    # 內(nèi)含子最短是20個堿基--alignIntronMax 1000000    # 內(nèi)含子最長是1000000個堿基--alignMatesGapMax 1000000    # 一對讀段之間最長距離為1000000個堿基

3.2.2、可變剪切部分

## 以下參數(shù)設(shè)置來自ENCODE官方，有些解釋很難翻譯成中文，參見下圖--outFilterType BySJout    # 對junction進(jìn)行過濾以減少錯誤--alignSJoverhangMin 8    # 未注釋過的junction的最少的overhang是8個堿基--alignSJDBoverhangMin 1    # 注釋過的junction的最少的overhang是1個堿基
## 其他參數(shù)--alignSJstitchMismatchNmax 0 -1 0 0    # 允許剪切點(diǎn)錯配的個數(shù)（-1代表無限制）四個數(shù)字分別代表(1)非經(jīng)典；(2)GT/AG或CT/AC；(3)GC/AG或CT/GC(4)AT/AC或GT/AT

3.2.3. 融合基因部分

--chimSegmentMin 20    # 每對嵌合讀段較短的一端至少有20個堿基，即PE150允許280+20結(jié)構(gòu)的融合基因--chimOutJunctionFormat 1    # 輸出的Chimeric.out.junction文件可直接用于融合基因--chimSegmentReadGapMax 0    # 嵌合讀段之間不允許空位--chimJunctionOverhangMin 20    # 嵌合的junction的最少的overhang是20個堿基，為了過濾非常短的外顯子，即連續(xù)剪切事件

4.STAR參數(shù)圖

序列比對 blast_blast序列比對_dnastar序列比對

等著瞧吧。 . .

現(xiàn)在對比量化已經(jīng)完成，下期我們將對STAR的輸出文件進(jìn)行回顧分析

文末友情推薦

如有侵權(quán)請聯(lián)系刪除！

TAGS：基因構(gòu)建索引比對序列

上一篇：【經(jīng)典干貨】程序員必看的各種優(yōu)秀資料、神器及框架整理（下）

下一篇：程序員用了這個網(wǎng)站后，不再為變量命名頭疼

返回列表

聯(lián)系我們

電話：13262879759

地址：無錫市梁溪區(qū)五里新村421號

郵箱：Mingchen@yoousoft.com

備案號：蘇ICP備2023012045號-1

官方公眾號

官方公眾號

Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務(wù)提供商

Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務(wù)提供商

13262879759

微信二維碼