聖塔非研究所

摘要 動機:鑑於高通量定序技術的快速發展及其局限性,從特定物種重建基因組序列的任務變得越來越重要

2022-09-02 · 已發表論文 · 更新 2026/03/19 上午03:45

摘要 動機:鑑於高通量定序技術的快速發展及其局限性,從特定物種重建基因組序列的任務變得越來越重要。應用不僅包括補償未定序基因組區域中缺失的數據以及為缺乏序列資訊的物種中的目標基因設計寡核苷酸引物,還包括為同源性搜尋準備客製化查詢。結果:我們引入了 maxAlike 演算法,該演算法根據其他物種的序列同源物重建特定分類單元的基因組序列。輸入是多序列比對和也包含目標物種的系統發育樹…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:已發表論文
  • 日期:2022-09-02

摘要

動機:鑑於高通量定序技術的快速發展及其局限性,從特定物種重建基因組序列的任務變得越來越重要。應用不僅包括補償未定序基因組區域中缺失的數據以及為缺乏序列資訊的物種中的目標基因設計寡核苷酸引物,還包括為同源性搜尋準備客製化查詢。結果:我們引入了 maxAlike 演算法,該演算法根據其他物種的序列同源物重建特定分類單元的基因組序列。輸入是多序列比對和也包含目標物種的系統發育樹。對於該目標物種,演算法計算每個序列位置的核苷酸機率。然後根據一定的置信水準重建共識序列。對於測試資料集中 44 個目標物種中的 37 個,與比對的共有序列和最近的系統發育鄰居的序列相比,我們獲得了重建精度的顯著提高。當僅考慮高於置信限的核苷酸時,maxAlike 在所有 44 個物種中明顯更好(高達 10%)。改進的序列重建還提高了尚未定序基因的 PCR 引子設計的品質:與其他重建方法相比,引子模板雙鏈體的預期 T-m 和實際 T-m 之間的差異可減少約 26%。我們還表明,預測精度對於輸入樹的常見失真具有穩健性。對於來自測試資料集中隨機基因組位點的 77% 的樹木,所有物種的預測準確度平均僅下降 1%。