本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。
原文連結
論文資訊
- 類型:已發表論文
- 日期:2022-09-02
摘要
背景:尋找遠緣同源物已成為基因組註釋中的重要議題。一個特別的困難是由不同的同源物造成的,這些同源物已經失去了可辨識的序列相似性。同樣的問題也出現在識別大類 RNA 的新成員(例如 snoRNA 或 microRNA)中,這些成員由無共同血統的家族組成。目前的結構化RNA同源性搜尋工具要麼完全基於序列相似性(例如blast或hmmer),要麼結合序列和二級結構。後一類工具最突出的例子是 Infernal。替代方案是基於描述符的方法。然而,在迄今為止發布的大多數實際應用中,協方差模型或手動指定的搜尋模式中包含的資訊以序列資訊為主。在這裡,我們提出兩個相關的問題:(1)單獨的二級結構是否可以為同源性搜尋和 RNA 類別新成員的檢測提供資訊? (2) 目標序列摺疊成正確二級結構的熱力學傾向在多大程度上有助於這項任務?結果:序列-結構比對可以用作替代搜尋策略。在這種情況下,查詢由鹼基配對機率矩陣組成,該矩陣可以從單一序列或從表示一組已知代表的多重比對中導出。可以選擇將序列資訊新增至查詢。對目標序列進行預處理以獲得局部鹼基配對機率。作為搜尋引擎,我們設計了 LocARNA 序列結構比對演算法的半全局掃描變體。 LocARNAscan 工具針對速度和低記憶體消耗進行了最佳化。在人工資料的基準測試實驗中,我們觀察到包含熱力學穩定性是有幫助的,儘管僅在查詢中序列資訊極低的情況下。此外,我們觀察到靈敏度尤其受到目標序列預測局部結構的有限準確性的限制。結論:雖然我們證明純粹基於結構的同源搜尋原則上是可行的,但在大多數應用場景中,它不太可能優於 Infernal 等工具,因為在這些應用場景中通常可以獲得大量序列資訊。然而,LocARNAscan 方法將受益於確定 RNA 二級結構的高通量方法。在轉錄組範圍內的應用中,此類方法將在目標端提供準確的結構註釋。