本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。
原文連結
論文資訊
- 類型:已發表論文
- 日期:2026-03-12
摘要
動機腸道微生物組在人類健康和疾病中發揮重要作用,促使大規模研究產生廣泛的數據集。分析此類資料集的關鍵預處理步驟是異常檢測,旨在識別錯誤樣本並防止誤導性統計結果。然而,微生物組數據提出了獨特的挑戰,例如組成性、稀疏性、相互依賴性和高維度性,限制了傳統方法的有效性,並強調了對微生物組數據異常檢測專門定制的方法的需求。實現為了應對這項挑戰,我們引入了 KADAIF,這是一種針對微生物組的異常檢測方法,它概括了常見的隔離森林 (IF) 方法。與 IF 中一樣,KADAIF 構建了一個樹集合,每個樹都沿著隨機選擇的特徵遞歸地劃分數據,並測量樣本被隔離的平均深度,假設異常樣本將被隔離到更靠近根的位置。然而,與 IF 不同的是,KADAIF 根據特徵子集(結合降維)對樣本進行分區,解決微生物組特定的屬性,例如稀疏性和物種相互作用。結果我們透過模擬引入異常行為的常見場景來評估 KADAIF,證明 KADAIF 在各種設定和資料集中優於替代方法。此外,我們還表明,在其他類型的高維度稀疏生物數據中,KADAIF 在檢測異常方面也優於 IF。最後,我們展示了 KADAIF 在縱向微生物組數據中識別疾病發作以及根據安娜·卡列尼娜原理劃分病例與對照的應用。結合起來,我們的工作凸顯了 KADAIF 在增強微生物組數據處理和下游分析方面的潛力,對精準醫學研究具有有益的影響。 可用性和實作 KADAIF 的實作以及用於分析的所有程式碼可在 GitHub ( 上取得。