本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。
原文連結
論文資訊
- 類型:已發表論文
- 日期:2022-09-02
摘要
背景:多基因交互作用可能在複雜表型的發展中發揮重要作用,並且交互作用基因之間的關係在微陣列分析中提出了具有挑戰性的統計問題,因為參與這些交互作用的基因可能不會表現出邊際差異表達。因此,有必要開發能夠識別區分錶型的相互作用基因組的工具,而不要求表型之間的分類邊界是凸的。結果:我們描述了一種新的無監督統計學習技術(稱為分區解耦方法(PDM))對基因表現微陣列資料的擴展和應用。此方法可用於根據多基因表現模式對樣本進行分類,並識別與表型相關的途徑,而不依賴單一基因的差異表達。 PDM 使用迭代譜聚類和清理步驟,在每次迭代中逐漸揭示資料幾何結構的更精細結構。由於譜聚類能夠識別不可線性分離的簇,因此它能夠闡明基於距離和基於樹的分類器可能錯過的樣本之間的關係。將資料投影到聚類質心併計算殘差(「清理」)後,可以重複譜聚類,揭示第一層中無法辨別的聚類。這些迭代中的每一次都提供了與其他迭代分離的資料分區,一直進行到殘差中的結構與雜訊無法區分,從而防止過度擬合。我們詳細描述了 PDM 並將其應用於三個公開可用的癌症基因表現資料集。透過在逐條途徑的基礎上應用 PDM 並識別那些允許對與已知樣本特徵相匹配的樣本進行無監督聚類的途徑,我們展示瞭如何使用 PDM 來尋找可能在疾病中發揮作用的機械相關基因組。用於執行 PDM 的 R 套件可供下載。結論:我們表明,PDM 是分析複雜疾病基因表現數據的有用工具,其中表型不是線性可分的,多基因效應可能發揮作用。我們的結果表明,與其他方法相比,PDM 能夠以更高的準確度區分細胞類型和治療,而 Pathway-PDM 應用程式是識別疾病相關途徑的寶貴技術。