聖塔非研究所

摘要 簡單地假設基因組的(蛋白質)編碼部分和非編碼部分必須具有不同的動態,並且非編碼部分必須特別通用,因

2022-09-02 · 已發表論文 · 更新 2026/03/19 上午03:35

摘要 簡單地假設基因組的(蛋白質)編碼部分和非編碼部分必須具有不同的動態,並且非編碼部分必須特別通用,因此受到各種(未指定的)機率分佈函數(pdf)的控制,我們就能夠預測真核生物的 ORF 數量遵循本福德分佈,因此必須具有特定的對數形式。使用 2010 年初我們獲得的 1000 多個基因組數據,我們發現 Benford 分佈對多個數量級的數據提供了極好的擬合。結論:在線性狀態下…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:已發表論文
  • 日期:2022-09-02

摘要

簡單地假設基因組的(蛋白質)編碼部分和非編碼部分必須具有不同的動態,並且非編碼部分必須特別通用,因此受到各種(未指定的)機率分佈函數(pdf)的控制,我們就能夠預測真核生物的 ORF 數量遵循本福德分佈,因此必須具有特定的對數形式。使用 2010 年初我們獲得的 1000 多個基因組數據,我們發現 Benford 分佈對多個數量級的數據提供了極好的擬合。結論:在線性狀態下,本福德分佈對原核生物數據產生了極好的擬合,而分佈的完全非線性形式同樣對真核生物數據提供了極好的擬合。此外,在它們的重疊區域中,顯著特徵在統計上是一致的。這使我們能夠將原核生物和真核生物之間的差異解釋為較大真核生物所需的生物功能需求增加的表現,估計一些最小基因組大小,並預測最大原核生物基因組大小約為 8-12 兆鹼基對。這些結果自然允許根據最大熵進行數學解釋,從而實現最有效的資訊傳輸。