聖塔非研究所

摘要 除少數例外,目前的短讀長映射方法利用簡單的種子啟發法來加速搜尋

2022-09-02 · 已發表論文 · 更新 2026/03/19 上午04:02

摘要 除少數例外,目前的短讀長映射方法利用簡單的種子啟發法來加速搜尋。大多數底層匹配模型都忽略了不僅允許不匹配,還允許插入和刪除的必要性。然而,目前的評估表明,非常不同的錯誤模型適用於新型高通量定序方法。雖然 Illumina 讀取中最常見的錯誤類型是不匹配,但 454 的 GS FLX 產生的讀取主要包含插入和刪除 (indel)。儘管 454 定序儀能夠產生更長的讀數,但該…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:已發表論文
  • 日期:2022-09-02

摘要

除少數例外,目前的短讀長映射方法利用簡單的種子啟發法來加速搜尋。大多數底層匹配模型都忽略了不僅允許不匹配,還允許插入和刪除的必要性。然而,目前的評估表明,非常不同的錯誤模型適用於新型高通量定序方法。雖然 Illumina 讀取中最常見的錯誤類型是不匹配,但 454 的 GS FLX 產生的讀取主要包含插入和刪除 (indel)。儘管 454 定序儀能夠產生更長的讀數,但該方法經常應用於小 RNA(miRNA 和 siRNA)定序。因此,快速準確的匹配,尤其是具有多種錯誤的短讀段匹配,是一個緊迫的實際問題。我們引入了一種短讀匹配模型,除了不匹配之外,還可以處理插入缺失。它解決了不同的錯誤模型。例如,它可以處理轉錄組學中由引子和多聚腺苷酸尾引起的前導和尾隨污染問題或長度依賴性錯誤率增加的問題。在這些情況下,它簡化了繁瑣且容易出錯的修剪步驟。為了有效率地搜索,我們的方法利用增強後綴數組形式的索引結構。與目前的短讀長映射方法相比,所提出的方法不僅在 454 個讀長方面表現出顯著提高的性能,而且在 Illumina 讀長方面也表現出顯著提高的性能。我們的方法是在 上提供的軟體 segemehl 中實現的。