聖塔非研究所

詞頻的兩種機制和複雜字典的起源:重溫齊普夫定律

2026-03-18 · 工作論文 · 更新 2026/03/18 下午07:21

摘要 齊普夫定律指出,單字的頻率是其排名的冪函數。通常認為冪的指數接近 ( )1。文本中不同單字的預測數量和實際數量之間的巨大偏差,機率密度函數的預測指數和實際指數之間的不一致以及大語料庫的統計數據,表明詞頻作為排名的函數遵循兩個不同的指數,第一個狀態為 $\approx ( )1$ ,第二個狀態為 $\approx ( )2$ 。分析了指數變化對文本測量和複雜詞典起源的影響。

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:工作論文
  • 編號:工作論文 #848
  • 日期:2026-03-18

摘要

齊普夫定律指出,單字的頻率是其排名的冪函數。通常認為冪的指數接近 (-)1。文本中不同單字的預測數量和實際數量之間的巨大偏差,機率密度函數的預測指數和實際指數之間的不一致以及大語料庫的統計數據,表明詞頻作為排名的函數遵循兩個不同的指數,第一個狀態為 $\approx (-)1$ ,第二個狀態為 $\approx (-)2$ 。分析了指數變化對文本測量和複雜詞典起源的影響。