本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。
原文連結
論文資訊
- 類型:已發表論文
- 日期:2022-09-02
摘要
背景:多種噪音源混淆了下一代定序資料中單核苷酸變異 (SNV) 的識別。例如,在文庫建置和定序步驟期間可能會引入錯誤。此外,參考基因組和用於讀取比對的演算法是決定變異體調用方法有效性的進一步關鍵因素。在單獨的定序實驗中考慮這些因素至關重要。結果:我們引入了一個簡單的資料自適應模型用於變體調用。此模型會自動調整以適應特定因素,例如對準誤差。為了實現這一目標,從低錯配率的站點中採樣了幾個特徵,並將這些特徵用於估計經驗對數似然。然後將可能性組合成一個分數,該分數通常會產生混合分佈。由此,我們確定一個決策閾值,將潛在的變異位點與雜訊的背景分開。結論:在模擬中,我們表明我們的簡單模型在靈敏度和特異性方面與經常使用的更複雜的 SNV 調用演算法具有競爭力。它在等位基因頻率較低的情況下表現特別好。下一代定序資料的應用揭示了分數分佈的明顯差異,顯示資料特定雜訊源的強烈影響。所提出的模型是專門為適應這些差異而設計的。