摘要分子特性預測對於加速藥物發現和材料科學的進步至關重要｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

論文資訊

類型：已發表論文
日期：2026-03-12

摘要

分子特性預測對於加速藥物發現和材料科學的進步至關重要。圖神經網路最近在分子表示學習方面取得了顯著的成功；然而，它們的廣泛採用受到兩個重大挑戰的阻礙：(1) 由於獲取標記資料的任務昂貴且耗時，導致資料稀缺和模型泛化受限；(2) 初始節點和邊緣特徵不足，無法納入全面的化學領域知識，特別是軌道資訊。為了解決這些限制，我們引入了知識引導圖（KGG）框架，該框架採用自監督學習來使用軌道級特徵來預訓練模型，以減輕對大量標記資料集的依賴。此外，我們提出了明確考慮軌道參與的原子雜化和鍵類型的新穎表示。我們的預訓練策略具有成本效益，利用 ZINC15 資料集中的約 250,000 個分子，而當代方法通常需要 200 到 1000 萬個分子，從而降低了潛在資料污染的風險。對不同下游分子特性資料集的廣泛評估表明，我們的方法顯著優於最先進的基線。補充分析，包括 t-SNE 視覺化以及與傳統分子指紋的比較，進一步驗證了我們提出的 KGG 方法的有效性和穩健性。 KGG 的主要優勢是其資料效率和架構多功能性，由軌道資訊表示驅動。透過從適度的語料庫中提取必要的化學知識，它避免了廣泛的預訓練，並且擅長低資料微調，為不同的 GNN 架構提供了強大且具有化學意義的基礎。