聖塔非研究所

自然語言文本的互資訊函數

2026-03-18 · 工作論文 · 更新 2026/03/19 上午03:00

摘要 互資訊函數 $M(d)$ 是用來偵測符號序列中相關性的量,應用於自然語言文字。對於一些正在分析的英語和德語文本,字母序列和字母類型序列的 $M(d)$ 在較短距離處表現出近似的逆冪律函數,指數接近 3。 $M(d)$ 的衰減太快,無法導致 $1/f$ 功率譜。由於無限尺寸效應,相同的逆冪律函數是否延伸到短距離之外還沒有定論。也包括有關正式語言和自然語言中其他縮放現象的各種…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:工作論文
  • 編號:工作論文 #1676
  • 日期:2026-03-18

摘要

互資訊函數 $M(d)$ 是用來偵測符號序列中相關性的量,應用於自然語言文字。對於一些正在分析的英語和德語文本,字母序列和字母類型序列的 $M(d)$ 在較短距離處表現出近似的逆冪律函數,指數接近 3。 $M(d)$ 的衰減太快,無法導致 $1/f$ 功率譜。由於無限尺寸效應,相同的逆冪律函數是否延伸到短距離之外還沒有定論。也包括有關正式語言和自然語言中其他縮放現象的各種主題的討論。