国产精品高清一区二区三区不卡-国产精品一区二区三区免费视频-日韩免费高清一级毛片-亚洲欧美一区二区三区国产精品-日韩欧美一区二区三区不卡视频-亚欧免费视频一区二区三区-亚洲欧美日韩一区成人-欧美日韩视频综合一区无弹窗-精品日韩在线视频一区二区三区-国内精品视频一区二区三区

你好，歡迎進入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!

返回首頁

關(guān)于我們

聯(lián)系我們

二維碼

誠信、勤奮、創(chuàng)新、卓越

友好定價、專業(yè)客服支持、正版軟件一站式服務(wù)提供

13262879759

工作日：9:00-22:00

（偽）從零開始學(xué)轉(zhuǎn)錄組（5）序列比對

發(fā)布時間：2023-12-10

瀏覽次數(shù)：0

有很多比較軟件。首先，請收集它們。因為我們是來向您介紹它們的，所以請統(tǒng)一使用它們并了解如何使用它們。

只要去首頁下載index文件，然后對比fastq格式的reads就可以得到sam文件了。

然后轉(zhuǎn)成bam文件并排序（注意N排序和P排序的區(qū)別）。索引完成后，加載IGV，截取幾個基因看看！

順便對bam文件做一下簡單的QC，參考我的基因組系列直播。

前四篇文章基本上都是準備工作。從本文開始，我們進入RNA-Seq數(shù)據(jù)分析的核心部分。

比較還是不比較

在比較之前，我們先要明白比較的目的是什么？ RNA-Seq數(shù)據(jù)比較和DNA-Seq數(shù)據(jù)比較有什么區(qū)別？

RNA-Seq數(shù)據(jù)分析可以分為多種類型，例如尋找差異表達基因或?qū)ふ倚碌倪x擇性剪接。如果我們要尋找差異表達的基因，我們只需要確定不同的read技術(shù)即可。我們可以使用bwa等比較工具，或者align-free工具，后者速度更快。

但如果您需要找到新的或替代的 RNA 剪接，您將需要像 STAR 這樣的工具來找到剪接位點。由于RNA-Seq與DNA-Seq不同，當(dāng)DNA轉(zhuǎn)錄為mRNA時，內(nèi)含子部分被去除。因此，如果反向的mRNA cDNA無法與參考序列進行比較，則會將其分離并重新比對，以確定中間是否有內(nèi)含子。

序列比對算法_序列比對測定的是_dnastar序列比對

工具選擇

在 2016 年的一篇評論 A of best for RNA-seq data 中，提到目前 RNA 數(shù)據(jù)分析有三種策略。當(dāng)時主要使用的工具是STAR和. 其中，其作者已推薦使用HISAT來代替。

序列比對算法_dnastar序列比對_序列比對測定的是

近日，一篇題為《by a Broad-RNA-seq》的文章發(fā)表——被稱為史上最全面的RNA-Seq數(shù)據(jù)分析流程。這也是我一直想做的，但他們做得很好。超出我的想象。文章中基于參考基因組進行轉(zhuǎn)錄本分析所使用的工具是、和STAR。結(jié)論是準確率最高，但總數(shù)少于STAR。從這里可以看出，第2類錯誤（接受謊言）相對較少，但第1類錯誤（拋棄真相）數(shù)量較多。

就獨特的比較而言，STAR是三者中最好的，主要是因為它在PE比較失敗時不會將SE強制到基因組上，就像和一樣。而且，在處理長讀和短讀的不同情況時，STAR的穩(wěn)定性也是最好的。

速度方面，比STAR和平均速度快2.5至100倍。

序列比對算法_序列比對測定的是_dnastar序列比對

如果你是學(xué)習(xí)RNA-Seq數(shù)據(jù)分析，上面提到的兩篇文檔一定要閱讀三遍以上，建議每隔一段時間復(fù)習(xí)一下。但就比較工具而言，基本上就選有STAR的。

下載索引

首先，問自己一個問題，為什么比較時需要使用索引？強烈推薦大家閱讀Jimmy寫的算法原理探索和算法原理探索。但這只是一個建議，你不需要實際看到，反正你也不會理解。

高通量測序遇到的第一個問題是，必須在合理的時間內(nèi)將數(shù)千甚至數(shù)億的reads映射到參考基因組上，并且錯誤率必須在可接受的范圍內(nèi)。為了提高比對速度，需要通過BWT算法將參考基因組序列轉(zhuǎn)換為索引，而我們比對的序列實際上是索引的子集。當(dāng)然，轉(zhuǎn)錄組比較還需要考慮選擇性剪接，因此比較復(fù)雜。

因此，我們不是將讀數(shù)直接粘貼到基因組上，而是將讀數(shù)與索引進行比較。人類索引一般都是現(xiàn)成的。我建議您下載現(xiàn)成的。我曾經(jīng)嘗試使用服務(wù)器自己創(chuàng)建索引，所花費的時間讓我懷疑自己的人生。

序列比對算法_序列比對測定的是_dnastar序列比對

cd referece && mkdir index && cd index
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/hg19.tar.gz
tar -zxvf hg19.tar.gz

如果你覺得你的電腦配置還可以，或者沒有現(xiàn)成的索引，可以通過方法創(chuàng)建

# 其實hisat2-buld在運行的時候也會自己尋找exons和splice_sites，但是先做的目的是為了提高運行效率
extract_exons.py gencode.v26lift37.annotation.sorted.gtf > hg19.exons.gtf &
extract_splice_sites.py gencode.v26lift37.annotation.gtf > hg19.splice_sites.gtf &
# 建立index， 必須選項是基因組所在文件路徑和輸出的前綴
hisat2-build --ss hg19.splice_sites.gtf --exon hg19.exons.gtf genome/hg19/hg19.fa hg19

我的是i7-7700處理器，內(nèi)存64G。運行資源效率如下：

形式比較

基本用法是 []* -x {-1 -2 | -U } [-S]，基本上提供了索引、PE數(shù)據(jù)或SE數(shù)據(jù)存儲位置的位置。然而，其他可選參數(shù)是一個很好的進步方式。如果您是新手，則使用默認參數(shù)即可。

因為RNA-Seq數(shù)據(jù)來自~，6個樣本的PE數(shù)據(jù)，也就是有6個循環(huán)，可以寫腳本或者直接在命令行運行

下面命令運行的目錄是/mnt/f/Data/，我的參考基因組的索引數(shù)據(jù)存放在/mnt/f/Data//index/hg19/，RNA-seq數(shù)據(jù)存放在/ mnt/f/Data/ 在 RNA 測序下。比較結(jié)果將存儲在/mnt/f/Data/RNA-Seq/中

mkdir -p RNA-Seq/aligned
for i in `seq 57 62`
do
 ? ?hisat2 -t -x reference/index/hg19/genome -1 RNA-Seq/SRR35899${i}_1.fastq.gz -2 SRR35899${i}_2.fastq.gz -S RNA-Seq/aligned/SRR35899${i}.sam &
done

& 會將任務(wù)扔到后臺，因此這三個比較程序會同時執(zhí)行。如果CPU和內(nèi)存無法承受，請將&一一刪除。比較步驟消耗大量內(nèi)存資源。這是由于比較工具必須將索引數(shù)據(jù)放入內(nèi)存而導(dǎo)致的。我有64G內(nèi)存，理論上可以同時處理20個PE數(shù)據(jù)。在我的電腦配置下dnastar序列比對，同時完成這一步大約需要2個小時。

序列比對測定的是_序列比對算法_dnastar序列比對

基本參數(shù)說明

在數(shù)據(jù)比較過程中，您可以有額外的安靜讀取選項，主要分為以下幾個部分：

注：soft表示比對的reads中只有部分與參考序列匹配，有部分不匹配。也就是說，100bp的read會匹配前20bp或者后20bp，或者最后20bp的比較效果不太好。

因此，比較結(jié)果受比較選項、評分選項、可變剪切選項和PE選項的影響。在我有生之年，我應(yīng)該寫一篇文章來介紹這些選項對結(jié)果的影響。

輸出結(jié)果

比較后，將輸出以下結(jié)果。解讀一下，所有數(shù)據(jù)都是100%，96.68%的配對數(shù)據(jù)不是一次性比較的，1.23%的數(shù)據(jù)比較是唯一比較，2.09%是多重比較。那么96.68%的人根本沒有數(shù)據(jù)可以比較。如果不按順序，就會有0.05%的比較。如果再用單端數(shù)據(jù)進行比較，則95.20%的數(shù)據(jù)沒有進行比較，3.60%的數(shù)據(jù)進行了一次比較，1.20%的數(shù)據(jù)進行了多次比較。零和零的總和加起來就是8%的對比！！！

序列比對測定的是_dnastar序列比對_序列比對算法

這個整體對比率讓我對生活產(chǎn)生了質(zhì)疑。怎么可能？我查看了輸出記錄，發(fā)現(xiàn)有幾個結(jié)果的比對率都在90%以上。我想了想，發(fā)現(xiàn)這個實驗似乎是在人類和老鼠身上都做過的。于是又去GEO查了一下記錄，突然發(fā)現(xiàn)自己差點翻車了。

圖9-15是人293細胞(9-11)或小鼠ES細胞(12-15)中的mRNA序列。

序列比對測定的是_dnastar序列比對_序列比對算法

同時我也反思了錯誤的原因。我默認 KO 和非 KO 各重復(fù) 3 次。事實上，文章的實驗設(shè)計并不是這樣的。可見，理解實驗設(shè)計非常重要。。

mkdir -p RNA-Seq/aligned
for i in `seq 56 58`
do
 ? ?hisat2 -t -x reference/index/hg19/genome -1 RNA-Seq/SRR35899${i}_1.fastq.gz -2 SRR35899${i}_2.fastq.gz -S RNA-Seq/SRR35899${i}.sam &
done

以上是修改后的代碼

三軸

SAM（/）數(shù)據(jù)格式是目前高通量測序中存儲比對數(shù)據(jù)的標準格式。當(dāng)然也可以用來存儲未對齊的數(shù)據(jù)。因此，SAM的格式說明

目前處理SAM格式的工具主要是Heng Li編寫的。除了C語言版本外，還有Java、Pysam、lisp的cl-sam等版本。主要功能如下：

最常用的三種工具是格式轉(zhuǎn)換、排序和索引。高級教程是通過閱讀文檔來提高的。

for i in `seq 56 58`
do
 ? ?samtools view -S SRR35899${i}.sam -b > SRR35899${i}.bam
 ? ?samtools sort SRR35899${i}.bam -o SRR35899${i}_sorted.bam
 ? ?samtools index SRR35899${i}_sorted.bam
done

筆記

Jimmy說要仔細判斷sam的兩種排序方式的區(qū)別，于是我截取了前100行數(shù)據(jù)，分別排序，然后查看結(jié)果。

head -1000 SRR3589957.sam > test.sam
samtools view -b ?test.sam > test.bam
samtools view test.bam | head

默認排序

samtools sort test.bam default
samtools view default.bam | head

按排序，或使用 -n 時按讀取名稱排序

samtools sort -n test.bam sort_left
samtools view sort_left.bam | head

也就是說，默認是根據(jù)染色體位置排序dnastar序列比對，而-n參數(shù)則是根據(jù)read name排序。當(dāng)然還有一個-t根據(jù)TAG排序。

談?wù)効捶?/p>

的view是一個非常實用的子命令。除了前面的格式轉(zhuǎn)換之外，它還可以進行數(shù)據(jù)提取和提取。

例如，提取1號染色體1234區(qū)域的比對讀數(shù)

samtools view SRR3589957_sorted.bam chr1:1234-123456 | head

例如，使用flag（0.1.19版本中不可用）和，使用-f或-F參數(shù)來提取不同匹配情況的reads。

Flag是一種描述讀取比較情況的標記。共有12種，可以組合使用。

0x1 ? ?PAIRED ? ?paired-end (or multiple-segment) sequencing technology
0x2 ? ?PROPER_PAIR ? ?each segment properly aligned according to the aligner
0x4 ? ?UNMAP ? ?segment unmapped
0x8 ? ?MUNMAP ? ?next segment in the template unmapped
0x10 ? ?REVERSE ? ?SEQ is reverse complemented
0x20 ? ?MREVERSE ? ?SEQ of the next segment in the template is reverse complemented
0x40 ? ?READ1 ? ?the first segment in the template
0x80 ? ?READ2 ? ?the last segment in the template
0x100 ? ?SECONDARY ? ?secondary alignment
0x200 ? ?QCFAIL ? ?not passing quality controls
0x400 ? ?DUP ? ?PCR or optical duplicate
0x800 ? ?SUPPLEMENTARY ? ?supplementary alignment

你可以先查看一下整體情況

samtools flagstat SRR3589957_sorted.bam

序列比對測定的是_dnastar序列比對_序列比對算法

換句話說，如果我想過濾完全匹配的reads，我需要使用0x10

samtools view -b -f 0x10 SRR3589957_sorted.bam chr1:1234-123456 ?> flag.bam
samtools flagstat flag.bam

我有生之年應(yīng)該寫一篇文章好好介紹一下。

比較質(zhì)量控制 (QC)

還是在A of best for RNA-seq data中，提到人類基因組的比對率應(yīng)該是70%到90%，并且multi-reads的次數(shù)要少。此外，外顯子上的讀取和鏈（外顯子上的讀取和）的覆蓋范圍應(yīng)該一致。

常用的工具包括

讓我們使用 RSeQC。畢竟使用自己寫的工具本來就很友好，安裝也很方便。

# Python2.7環(huán)境下
pip install RSeQC

總共有以下幾個文件。根據(jù)它們的名字就可以知道它們的功能是什么。

首先對bam文件進行統(tǒng)計分析。從結(jié)果來看，滿足70~90的對比率要求。

bam_stat.py -i SRR3589956_sorted.bam

dnastar序列比對_序列比對測定的是_序列比對算法

基因組覆蓋度的QC需要提供bed文件，可以直接從RSeQC網(wǎng)站下載，也可以使用gtf轉(zhuǎn)換

read_distribution.py -i RNA-Seq/aligned/SRR3589956_sorted.bam -r reference/hg19_RefSeq.bed

IGV視圖

加載參考序列、注釋和 BAM 文件并查看。

dnastar序列比對_序列比對算法_序列比對測定的是

你好奇為什么一開始是五嗎？下面揭曉答案。原文是我的地址。

()

如有侵權(quán)請聯(lián)系刪除！

TAGS：rna-seq 轉(zhuǎn)錄組序列比對

上一篇：我最常用的Intellij IDEA快捷鍵

下一篇：核酸序列分析工具

返回列表

聯(lián)系我們

電話：13262879759

地址：無錫市梁溪區(qū)五里新村421號

郵箱：Mingchen@yoousoft.com

備案號：蘇ICP備2023012045號-1

官方公眾號

官方公眾號

Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務(wù)提供商

Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務(wù)提供商

13262879759

微信二維碼