本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。
原文連結
論文資訊
- 類型:工作論文
- 編號:工作論文 #495
- 日期:2026-03-18
摘要
我們在科學中使用的所有符號和符號序列都是對自然的粗粒度描述的結果。根據 C. Shannon 1948 年開創性論文中的定理,有限字母表上長度為 N 的所有符號序列的集合可以粗略地分為兩個子集:一個巨大的典型集合和一個微小的非典型序列集合。數十億年進化的生物序列必定屬於這個微小的集合。研究非典型集的一個有效方法是查看真實數據。我們將報告一些對真實 DNA 和蛋白質數據的觀察,包括細菌基因組的「迴避特徵」、這些基因組中的分類單元特異性重複、隨機基因組中 K 弦數量分佈的精細結構、從其組成的 K 肽重建蛋白質序列的幾乎唯一性等。這些觀察有時可能會產生與組合學、圖論和形式語言理論相關的有趣的受生物學啟發的數學。