聖塔非研究所

使用神經網路和統計方法預測蛋白質二級結構

2026-03-18 · 工作論文 · 更新 2026/03/19 上午12:30

摘要 比較了神經網路方法和貝葉斯統計方法,用於預測給定蛋白質一級序列的蛋白質二級結構。貝葉斯方法做出了非物理假設,即蛋白質中每個位置出現氨基酸的機率與其他位置出現的氨基酸無關。然而,我們發現貝葉斯方法的預測準確性僅略低於迄今為止所使用的最複雜方法的準確性。我們介紹了神經網路方法與貝葉斯統計方法的關係,並表明,原則上,神經方法提供了相當大的能力,儘管顯然它對於這個問題並不是特別有…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:工作論文
  • 編號:工作論文 #1380
  • 日期:2026-03-18

摘要

比較了神經網路方法和貝葉斯統計方法,用於預測給定蛋白質一級序列的蛋白質二級結構。貝葉斯方法做出了非物理假設,即蛋白質中每個位置出現氨基酸的機率與其他位置出現的氨基酸無關。然而,我們發現貝葉斯方法的預測準確性僅略低於迄今為止所使用的最複雜方法的準確性。我們介紹了神經網路方法與貝葉斯統計方法的關係,並表明,原則上,神經方法提供了相當大的能力,儘管顯然它對於這個問題並不是特別有用。在此過程中,我們推導出一種神經形式主義,其中輸出神經元直接表示結構類別的條件機率。機率形式主義允許引入新的目標函數,即互信息,它將相關性的概念作為預測準確性的度量轉化為有用的訓練度量。儘管使用這種新方法可以達到與其他方法(利用均方誤差)相似的準確度,但訓練集上的準確度卻顯著更高,而且令人著迷,即使可調整參數的數量保持不變。互資訊測量比均方誤差測量正確預測了更大比例的螺旋和片狀結構,但以犧牲線圈精度為代價——這正是它的設計初衷。結合這兩個目標函數,我們獲得了 64.4% 的略微提高的精度,馬修斯係數 $C_\alpha、C_\beta$ 和 $C_coil$ 分別為 0.40、0.32 和 0.42。然而,由於迄今為止所有方法的性能僅比貝葉斯演算法稍好,貝葉斯演算法需要對氨基酸獨立性進行嚴格假設,因此人們被迫得出結論,儘管應用了各種複雜的演算法(例如神經網路),但在這個問題上幾乎沒有取得任何進展,並且進一步的進展將需要更好地理解相關的生物物理學。