聖塔非研究所

摘要 背景:新定序的基因組中基因的準確註釋仍然是一個挑戰

2022-09-02 · 已發表論文 · 更新 2026/03/19 上午03:12

摘要 背景:新定序的基因組中基因的準確註釋仍然是一個挑戰。儘管可以使用複雜的比較流程,但計算得出的基因模型通常並不完美。當存在多個相似的旁系同源物時尤其如此。當基因組僅在初步草稿水平組裝成重疊群或短支架時,這個問題會進一步惡化。然而,這些基因組為研究基因家族提供了有價值的資訊。特別是對於系統發育學和基因家族歷史分析,需要蛋白質編碼基因的高精度模型。結果:我們提出了一個管道 Ex…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:已發表論文
  • 日期:2022-09-02

摘要

背景:新定序的基因組中基因的準確註釋仍然是一個挑戰。儘管可以使用複雜的比較流程,但計算得出的基因模型通常並不完美。當存在多個相似的旁系同源物時尤其如此。當基因組僅在初步草稿水平組裝成重疊群或短支架時,這個問題會進一步惡化。然而,這些基因組為研究基因家族提供了有價值的資訊。特別是對於系統發育學和基因家族歷史分析,需要蛋白質編碼基因的高精度模型。結果:我們提出了一個管道 ExonMatchSolver,旨在幫助使用者產生和管理基因蛋白質編碼部分的高品質模型。該工具特別解決了識別片段化基因組組裝中屬於相同旁系同源基因的那些編碼外顯子組的問題。該 paralog-tocontig 分配問題被證明是 NP 完全的。它被表述為整數線性規劃問題並被解決。結論:ExonMatchSolver 管道可用於建立高度準確的蛋白質編碼基因模型,即使跨越多個基因組片段也是如此。這為更好地理解特定基因家族的演化史奠定了基礎,這些基因家族擁有大量旁系同源物,並且頻繁地發生基因複製事件。