摘要背景大規模生物資料集經常受到雜訊污染，這可能妨礙對底層過程的準確推斷｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

論文資訊

類型：已發表論文
日期：2022-09-02

摘要

背景大規模生物資料集經常受到雜訊污染，這可能妨礙對底層過程的準確推斷。這種測量噪音可能來自內源性生物因素（如細胞週期和生命史變化），也可能來自外源性技術因素（如樣本製備和儀器變化）。結果我們描述了一種自動減少大規模生物資料集中雜訊的通用方法。該方法使用交互網絡來識別相關或反相關測量組，可以組合或「過濾」這些測量值以更好地恢復潛在的生物訊號。與影像去噪的過程類似，單一網路濾波器可以應用於整個系統，或者係統可以先分解為不同的模組，並對每個模組應用不同的濾波器。網路濾波器應用於具有已知網路結構和訊號的合成數據，可以準確地降低各種雜訊等級和結構的雜訊。應用於預測健康組織和癌症組織中人類蛋白質表現變化的機器學習任務時，與使用未過濾的資料相比，訓練前的網路過濾可將準確度提高高達 43%。結論網路濾波器是生物資料去雜訊的通用方法，可以解釋不同測量值之間的相關性和反相關性。此外，我們發現在過濾之前對網路進行分區可以顯著減少具有異質資料和相關模式的網路中的錯誤，並且這種方法優於現有的基於擴散的方法。我們的蛋白質體學數據結果顯示網路過濾器在系統生物學應用上具有廣泛的潛在效用。