摘要跨語言資料的大型數位語料庫的可用性不斷增加，正在徹底改變語言學的許多分支｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

SFI 頁面

論文資訊

類型：已發表論文
日期：2022-09-02

摘要

跨語言資料的大型數位語料庫的可用性不斷增加，正在徹底改變語言學的許多分支。總體而言，它引發了人們的注意力從有關個體特徵的詳細問題轉向更適合嚴格統計分析的全球模式。這就產生了一種基於逐次逼近的方法，其中具有簡化假設的模型產生了可以系統地改進的框架，始終保持明確的方法論承諾和假設的先驗知識。因此，他們可以透過將數據提供的支持與基本假設分開來定量解決競爭框架之間的爭議。然而，這些方法對於傳統從業者來說通常表現為「黑盒子」。事實上，轉向統計觀點使這些新方法的結果與傳統理解的比較變得複雜，有時會導致誤解和過於寬泛的主張。我們在這裡描述了這種不斷演變的方法論轉變，歸因於大量但往往不完整且管理不善的數據的出現，強調新的定量方法與傳統比較方法的潛在相似性，並討論前者何時以及在多大程度上比後者俱有優勢。在這篇綜述中，我們簡要介紹了以很大程度上獨立於模型的方式檢測模式的隨機化測試和對這些模式進行更多基於模型的分析的系統語言方法。我們預見到，計算處理大量資料的能力與經過訓練的語言洞察力之間將進行富有成效的分工，以識別有價值的先前承諾和需要比較的有趣假設。