本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。
原文連結
論文資訊
- 類型:已發表論文
- 日期:2022-09-02
摘要
背景:過去幾年基因組定序的進步導致了該領域的根本範式轉移。隨著定序成本的穩定下降,基因組計畫不再受到原始定序資料成本的限制,而是受到與基因組組裝相關的計算問題的限制。迫切需要更有效和更準確的方法,特別是對於高度複雜且通常非常大的動植物基因組。最近,已經設計出整合短讀取資料和長讀取資料的「混合」方法來滿足這一需求。結果:LazyB 就是這樣一個混合基因組組裝器。它經過專門設計,強調利用低覆蓋率的短讀和長讀。 LazyB 從長讀和限制性過濾的短讀單元之間的二分重疊圖開始。該圖轉換為長讀重疊圖 G。 LazyB 沒有採用去除提示、氣泡和其他局部特徵的更傳統方法,而是逐步提取其全局屬性接近路徑不相交並集的子圖。首先,提取一致定向的子圖,在第二步驟中將其簡化為有向無環圖。在下一步中,使用適當區間圖的屬性來提取重疊群作為最大權重路徑。這些路徑僅在最後一步翻譯成基因組序列。 LazyB 的原型實現完全用 Python 編寫,與最先進的管道相比,不僅可以產生更準確的酵母和果蠅基因組組裝,而且需要的計算量也少得多。結論:LazyB 是新型低成本基因組組裝器,可以很好地應對大基因組和低覆蓋率。它基於一種將重疊圖減少為路徑集合的新穎方法,從而為未來的改進開闢了新的途徑。