你好,歡迎進(jìn)入江蘇優(yōu)軟數(shù)字科技有限公司官網(wǎng)!
發(fā)布時(shí)間:2023-06-05
瀏覽次數(shù):0
在研究 DNA 或蛋白質(zhì)序列時(shí),主要關(guān)注的是它包含的遺傳信息; 在研究兩個(gè)或多個(gè) DNA 或蛋白質(zhì)序列時(shí),主要關(guān)注的是不同序列之間的差異和聯(lián)系。 在生物信息學(xué)中,生物大分子的序列比對是一項(xiàng)非?;A(chǔ)的工作。
目前關(guān)于進(jìn)化的基本思想是生物結(jié)構(gòu)由簡單到復(fù)雜,物種由少到多。 在生命進(jìn)化過程中,DNA可能會發(fā)生突變(核苷酸替換)、插入、缺失等變化,導(dǎo)致不同物種的DNA序列出現(xiàn)異同。 ()的主要思想是使用特定的算法找出兩個(gè)或多個(gè)序列之間形成最大相似度得分的空間插入和序列比對方案。 主要要解決的問題是DNA序列中的插入和缺失。 種類。 根據(jù)比對的序列數(shù),可分為雙序列比對( )和多序列比對( )。 序列比對大多基于動(dòng)態(tài)規(guī)劃算法(),明確序列中的保守和非保守區(qū)域,分析序列的進(jìn)化趨勢。
描述序列之間關(guān)系的概念有同源性()、相似性()、距離()。 同源性是一個(gè)定性的概念,意味著不同的序列有一個(gè)共同的進(jìn)化祖先; 相似度和距離都是數(shù)量概念,表示兩個(gè)序列之間的相似程度和差異程度。 如果兩個(gè)序列是同源的,那么它們就具有較高的相似性,而由于趨同進(jìn)化的存在(),較高的相似性不一定是同源的。
同源性可分為垂直同源性( )和水平同源性( )dnastar序列比對,垂直同源性是指共同祖先的不同進(jìn)化分支,而水平同源性主要是基因組復(fù)制形成的,比如植物α球蛋白和β球蛋白的同源關(guān)系看起來像這樣:
旁系同源物一般具有相同或相似的功能,但直系同源物則不一定:由于缺乏自然選擇的原始力量,復(fù)制的基因拷貝可以越來越自由地發(fā)生變異dnastar序列比對,從而獲得新的功能。
相似度得分和距離是一對相反的變量,定量描述序列相似度和距離。 相似度分?jǐn)?shù)是在一定的評分規(guī)則下,兩個(gè)序列的對應(yīng)字符的函數(shù)。 通常,相同的字符(即核苷酸或多肽)越多,得分越高,如下圖:
但是在進(jìn)化的過程中,不僅有核苷酸的替換,還有插入、刪除、重復(fù)等,所以相似度描述序列的主要思想是通過在序列:
其中,s1'、s2'...sk'為插入空格得到的序列s1、s2...sk。
編輯距離的大小取決于兩個(gè)序列對應(yīng)位置不同字符的個(gè)數(shù)。 不同的字符越多,值越大。 例如,漢明距離()估計(jì)如下:
距離描述序列的主要思想是通過字符替換將一個(gè)序列轉(zhuǎn)換成另一個(gè)序列。 每次更換都記錄為成本(cost)。 考慮到插入間隙的存在,這些操作也可以擴(kuò)展為字符替換和空格插入。 ,刪除空格,所以描述多個(gè)序列之間的距離是將這個(gè)序列轉(zhuǎn)化為一個(gè)公共序列所需的最小代價(jià):
如果不計(jì)算插入和刪除的空格,只估算相應(yīng)字符的替換成本,就是編輯距離(edit)。
結(jié)尾
如有侵權(quán)請聯(lián)系刪除!
Copyright ? 2023 江蘇優(yōu)軟數(shù)字科技有限公司 All Rights Reserved.正版sublime text、Codejock、IntelliJ IDEA、sketch、Mestrenova、DNAstar服務(wù)提供商
13262879759
微信二維碼