聖塔非研究所

摘要 粒線體基因組序列有大量可用,且當今新序列的發布速度越來越快

2022-09-02 · 已發表論文 · 更新 2026/03/19 上午03:05

摘要 粒線體基因組序列有大量可用,且當今新序列的發布速度越來越快。快速、自動、一致和高品質的註釋是下游分析的先決條件。因此,我們提出了一種用於粒線體蛋白編碼基因快速從頭註釋的自動化管道。此註釋基於增強的系統發育感知隱馬可夫模型 (HMM)。此管道使用系統發育的近似值,對已註釋的序列和相應的 HMM 建立特定於分類單元的增強型多序列比對 (MSA)。透過修復未註釋的移碼、清除錯誤…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:已發表論文
  • 日期:2022-09-02

摘要

粒線體基因組序列有大量可用,且當今新序列的發布速度越來越快。快速、自動、一致和高品質的註釋是下游分析的先決條件。因此,我們提出了一種用於粒線體蛋白編碼基因快速從頭註釋的自動化管道。此註釋基於增強的系統發育感知隱馬可夫模型 (HMM)。此管道使用系統發育的近似值,對已註釋的序列和相應的 HMM 建立特定於分類單元的增強型多序列比對 (MSA)。透過修復未註釋的移碼、清除錯誤序列以及從兩端去除非保守列來增強 MSA。與參考註釋的比較凸顯了結果的高品質。移碼校正方法預測大量移碼,其中許多是未知的。對祖龍-陸龜組 nad3 中的移碼進行了詳細分析。