摘要背景：需要有效的生物資訊解決方案來應對工業規模基因組註釋所帶來的挑戰｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

SFI 頁面

論文資訊

類型：已發表論文
日期：2022-09-02

摘要

背景：需要有效的生物資訊解決方案來應對工業規模基因組註釋所帶來的挑戰。我們推出了 Bcheck，一種包裝工具，它透過結合模式匹配的速度和協方差模型的敏感性來預測 RNase P RNA 基因。 Bcheck 的核心是亞家族特定描述子模型和協方差模型的函式庫。結果：在單一 CPU 上掃描 GenBank 中的所有微生物基因組，僅需 4 小時即可識別出 1024 個微生物染色體序列中 98% 的 RNase P RNA 基因。與 GenBank 文件中的 387 個現有註釋相比，Bcheck 預測具有更完整的結構，並按亞科成員資格自動分類。對於真核染色體，Bcheck 可以識別 85 個後生動物基因組中的 84 個和 21 個真菌基因組中的 19 個中已知的 RNase P RNA 基因。 Bcheck預測了37個新的真核生物RNase P RNA基因，其中32個來自真菌。在至少 20 種後生動物中觀察到基因重複事件。對全球海洋採樣探險隊的元基因組數據進行掃描，包括超過 1000 萬個樣本序列（18 GB），預測出 2909 個獨特基因，其中 98% 屬於祖先細菌 A 型 RNase P RNA，其中 66% 與已知的原核 RNase P RNA 沒有密切同源性。結論：透過基於描述符的搜尋進行有效過濾和隨後透過協方差模型建立高品質基因模型相結合，為大規模定序資料中RNase P RNA基因的檢測提供了一種有效的方法。 Bcheck 作為網頁伺服器實現，也可以從下載供本地使用