聖塔非研究所

RNA二級結構統計

2026-03-18 · 工作論文 · 更新 2026/03/19 上午02:12

摘要 RNA序列的大集合被折疊成具有最小自由能的二級結構。使用四種核苷酸字母表:兩個二進位字母表,AU和GC,生物物理AUGC和合成GCXK字母表。它們定義了鹼基配對規則,並根據其物理性質定義了鹼基對相互作用的強度。這裡提供的所有數量很大程度上取決於所選的特定字母表。 RNA 二級結構分為結構元件,例如堆疊、環、接頭和自由端。這些元素的統計屬性是針對不同的鍊長度計算的,最高可達…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:工作論文
  • 編號:工作論文 #1591
  • 日期:2026-03-18

摘要

RNA序列的大集合被折疊成具有最小自由能的二級結構。使用四種核苷酸字母表:兩個二進位字母表,AU和GC,生物物理AUGC和合成GCXK字母表。它們定義了鹼基配對規則,並根據其物理性質定義了鹼基對相互作用的強度。這裡提供的所有數量很大程度上取決於所選的特定字母表。 RNA 二級結構分為結構元件,例如堆疊、環、接頭和自由端。這些元素的統計屬性是針對不同的鍊長度計算的,最高可達 $\nu = 100$。將隨機集合的統計數據獲得的結果與具有相似鹼基頻率的天然RNA分子的數據進行比較。二級結構用樹表示。兩個結構之間距離的定量測量,即“樹距離 $d_t$”,是透過樹編輯獲得的。在 RNA 結構的實際計算中引入並比較了兩種不同但形式上等效的樹表示。我們引入結構密度表面作為具有樹距離 $(d_t = t)$ 的兩個結構的條件機率 $P(t|h)$,假設折疊到它們中的序列具有漢明距離 $(d_h = h)$。結構密度表面提供了對 RNA 二級結構「形狀空間」的洞察。與典型序列相比,在小漢明距離處,幾乎整個樹距離範圍都以相當大的機率被覆蓋。這表明絕大多數可能的結構都出現在任何隨機序列的相當小的鄰域內。樹表示中二級結構的相關長度是根據機率密度計算的。它們是結構景觀複雜性或“堅固性”的適當衡量標準。