本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。
原文連結
論文資訊
- 類型:工作論文
- 編號:工作論文 #1381
- 日期:2026-03-18
摘要
我們先前的工作將神經網路技術應用於區分取自內含子「與」外顯子的開放閱讀框(ORF)序列的問題。此方法計算指定長度的 ORF 中的密碼子頻率,然後使用 DNA 片段的密碼子頻率表示來訓練神經網路(本質上是具有 S 形或「軟階躍函數」輸出的感知器)來執行這種區分。訓練後,網路被應用於不相交的「預測」資料集以評估準確性。我們先前的工作得出的準確率為 98.4%,超過了當時文獻中報導的其他演算法的準確度。在這裡,我們報告了更高的準確度,這是由於外顯子和內含子中空間分離的密碼子的互資訊(相關性測量)的計算而產生的。相鄰密碼子之間的外顯子中存在顯著的互訊息,但內含子中不存在。這顯示相鄰密碼子的雙密碼子頻率對於內含子/外顯子區分很重要。我們報告說,使用針對雙密碼子頻率進行訓練的神經網路在較小片段長度下獲得的準確性甚至比我們使用密碼子頻率的原始結果要高得多,而原始結果已經高於也使用密碼子頻率的簡單統計方法。我們還報告了透過在所有六個閱讀框架(即原始鍊和補體鏈上的三個框架)中包含密碼子和雙密碼子統計數據而獲得的準確性。包含六幀統計數據進一步提高了準確性。我們也將這些神經網路結果與貝葉斯統計預測方法進行比較,該方法假設每個位置都有獨立的密碼子頻率。貝葉斯方案的表現比任何基於神經的方案都要差;然而,文獻中明確或隱含地報道的許多方法都使用這種方法。具體來說,基於密碼子頻率的貝葉斯預測方案在 90 個密碼子 ORF 上達到 90.9% 的準確度,而我們最好的神經網路方案在 60 個密碼子 ORF 上達到 99.4% 的準確度。 「準確度」定義為外顯子和內含子敏感度的平均值。在短片段長度上實現足夠高的準確度可有助於提供一種計算方法來尋找未註釋的 DNA 序列中的編碼區,例如人類基因組計劃的兆鹼基測序工作中產生的序列。我們警告說,這裡報告的高精度並不代表識別「原始」鹼基序列中的外顯子問題的完整解決方案。儘管仍高於文獻中報導的其他方法的準確度,但小長度外顯子的準確度要低得多。短外顯子長度並不少見。此問題的完整解決方案可能需要多種方法的組合,包括識別剪接位點的準確計算方法。