聖塔非研究所

摘要 分子特性預測對於加速藥物發現和材料科學的進步至關重要

2026-03-12 · 已發表論文 · 更新 2026/03/18 上午11:24

摘要 分子特性預測對於加速藥物發現和材料科學的進步至關重要。圖神經網路最近在分子表示學習方面取得了顯著的成功;然而,它們的廣泛採用受到兩個重大挑戰的阻礙:(1) 由於獲取標記資料的任務昂貴且耗時,導致資料稀缺和模型泛化受限;(2) 初始節點和邊緣特徵不足,無法納入全面的化學領域知識,特別是軌道資訊。為了解決這些限制,我們引入了知識引導圖(KGG)框架,該框架採用自監督學習來使用…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:已發表論文
  • 日期:2026-03-12

摘要

分子特性預測對於加速藥物發現和材料科學的進步至關重要。圖神經網路最近在分子表示學習方面取得了顯著的成功;然而,它們的廣泛採用受到兩個重大挑戰的阻礙:(1) 由於獲取標記資料的任務昂貴且耗時,導致資料稀缺和模型泛化受限;(2) 初始節點和邊緣特徵不足,無法納入全面的化學領域知識,特別是軌道資訊。為了解決這些限制,我們引入了知識引導圖(KGG)框架,該框架採用自監督學習來使用軌道級特徵來預訓練模型,以減輕對大量標記資料集的依賴。此外,我們提出了明確考慮軌道參與的原子雜化和鍵類型的新穎表示。我們的預訓練策略具有成本效益,利用 ZINC15 資料集中的約 250,000 個分子,而當代方法通常需要 200 到 1000 萬個分子,從而降低了潛在資料污染的風險。對不同下游分子特性資料集的廣泛評估表明,我們的方法顯著優於最先進的基線。補充分析,包括 t-SNE 視覺化以及與傳統分子指紋的比較,進一步驗證了我們提出的 KGG 方法的有效性和穩健性。 KGG 的主要優勢是其資料效率和架構多功能性,由軌道資訊表示驅動。透過從適度的語料庫中提取必要的化學知識,它避免了廣泛的預訓練,並且擅長低資料微調,為不同的 GNN 架構提供了強大且具有化學意義的基礎。