聖塔非研究所

語言關係的計算特徵敏感重建:為比較歷史語言重建發展 ALINE 距離

2026-03-18 · 工作論文 · 更新 2026/03/18 下午03:40

摘要 在許多非語言環境中,包括文化和分子人類學領域,語言之間的歷史關係被用作社會歷史的代理。語言學家傳統上使用標準比較方法來收集這些資訊。雖然提供極其細緻的語言訊息,但這種方法既耗時又費力。相反,計算方法明顯更快,但可能會引入重大錯誤。此外,目前的方法經常使用本身由歷史語言學家編碼的同源集,從而降低了計算方法的優勢。在這裡,我們開發了一種基於 ALINE 距離的方法,從配對註釋…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:工作論文
  • 編號:工作論文 #448
  • 日期:2026-03-18

摘要

在許多非語言環境中,包括文化和分子人類學領域,語言之間的歷史關係被用作社會歷史的代理。語言學家傳統上使用標準比較方法來收集這些資訊。雖然提供極其細緻的語言訊息,但這種方法既耗時又費力。相反,計算方法明顯更快,但可能會引入重大錯誤。此外,目前的方法經常使用本身由歷史語言學家編碼的同源集,從而降低了計算方法的優勢。在這裡,我們開發了一種基於 ALINE 距離的方法,從配對註釋中提取特徵敏感關係,這些數據集除了主要來源的轉錄外,只需要訓練有素的語言學家的最小貢獻。我們透過與透過比較方法獨立產生的數據進行比較來驗證我們的結果,並使用一致性指數來量化錯誤率。為了展示我們的方法的實用性並證明其在本地和區域範圍內的穩健性,我們將其應用於印尼東部的兩種語言資料集。隨著語言資料集的激增,模仿歷史語言重建的可擴展計算方法將變得越來越必要。儘管目前我們無法理清驅動語言變化的所有過程(例如詞彙借用),但我們的方法為手動語言分析提供了穩健且準確的替代方案。這裡採用的特徵敏感方法透過分析被許多目前基於同源的計算方法丟棄(或作為先決條件要求)的關鍵語音訊息,準確且自動地識別隱藏在傳統單字清單中的湧現模式。這種方法並不是要取代手動語言分析,而是在為需要對歷史語言關係進行正式定量分析的非語言領域或跨學科專案快速生成可靠數據方面發揮著重要作用。在沒有訓練有素的語言學家的情況下,我們的方法提供了可行的近似系統發育,或顯著減少了手動分類所需的時間和精力。