聖塔非研究所

雜訊:多序列比對中問題列的識別

2026-03-18 · 工作論文 · 更新 2026/03/18 下午03:10

摘要 動機:眾所周知,從(核酸)序列資料進行系統發育重建的基於序列的方法受到兩種影響的困擾:同質性和比對錯誤。大的進化距離意味著大量的同質位點。由於大多數蛋白質編碼基因在替換率方面表現出巨大的變化,並且這些變化在整個序列中並非不相關,因此這通常會導致(i)系統發育資訊和(ii)有效隨機區域的拼湊模式。此外,在高度可變的區域中,對齊錯誤會累積,有時會導致系統發育重建中產生誤導性訊…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:工作論文
  • 編號:工作論文 #391
  • 日期:2026-03-18

摘要

動機:眾所周知,從(核酸)序列資料進行系統發育重建的基於序列的方法受到兩種影響的困擾:同質性和比對錯誤。大的進化距離意味著大量的同質位點。由於大多數蛋白質編碼基因在替換率方面表現出巨大的變化,並且這些變化在整個序列中並非不相關,因此這通常會導致(i)系統發育資訊和(ii)有效隨機區域的拼湊模式。此外,在高度可變的區域中,對齊錯誤會累積,有時會導致系統發育重建中產生誤導性訊號。結果:我們在此提出了一種方法,該方法基於評估沿著類群循環排序的特徵狀態的分佈,允許在多序列比對中識別系統發育上無資訊的同質位點。根據「樹質」的各種指標來衡量,刪除這些位點似乎可以提高系統發育重建演算法的效能。特別是,由於排除了最有可能代表強隨機性特徵的系統發育不相容位點,我們獲得了更穩定的樹。軟體:電腦程式嘈雜地實現了這種方法。只要(1)從原始比對中獲得的平均引導支援較低,並且(2)資料集中有足夠多的類群,例如至少有 12 到 15 個類群,它就可以用來提高系統發育重建能力,並具有相當大的成功率。該軟體可根據 GNU 公共授權從 取得。 uni-leipzig.de/軟體/noisy/