雜訊：多序列比對中問題列的識別｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

論文資訊

類型：工作論文
編號：工作論文 #391
日期：2026-03-18

摘要

動機：眾所周知，從（核酸）序列資料進行系統發育重建的基於序列的方法受到兩種影響的困擾：同質性和比對錯誤。大的進化距離意味著大量的同質位點。由於大多數蛋白質編碼基因在替換率方面表現出巨大的變化，並且這些變化在整個序列中並非不相關，因此這通常會導致（i）系統發育資訊和（ii）有效隨機區域的拼湊模式。此外，在高度可變的區域中，對齊錯誤會累積，有時會導致系統發育重建中產生誤導性訊號。結果：我們在此提出了一種方法，該方法基於評估沿著類群循環排序的特徵狀態的分佈，允許在多序列比對中識別系統發育上無資訊的同質位點。根據「樹質」的各種指標來衡量，刪除這些位點似乎可以提高系統發育重建演算法的效能。特別是，由於排除了最有可能代表強隨機性特徵的系統發育不相容位點，我們獲得了更穩定的樹。軟體：電腦程式嘈雜地實現了這種方法。只要（1）從原始比對中獲得的平均引導支援較低，並且（2）資料集中有足夠多的類群，例如至少有 12 到 15 個類群，它就可以用來提高系統發育重建能力，並具有相當大的成功率。該軟體可根據 GNU 公共授權從取得。 uni-leipzig.de/軟體/noisy/