聖塔非研究所

使用混合主題連結模型的可擴展文字和連結分析

2026-03-18 · 工作論文 · 更新 2026/03/18 下午01:17

摘要 許多資料集包含有關物件的豐富資訊以及它們之間的成對關係。例如,在網站、科學論文和其他文件的網路中,每個節點都包含由單字集合以及對其他節點的超連結或引用組成的內容。為了對此類資料集進行推理並做出預測和建議,擁有能夠捕獲在每個節點生成文本的過程以及它們之間的連結的模型非常有用。在本文中,我們將主題建模中的經典想法與統計物理界最近開發的混合成員塊模型的變體相結合。所得模型的優點…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:工作論文
  • 編號:工作論文 #191
  • 日期:2026-03-18

摘要

許多資料集包含有關物件的豐富資訊以及它們之間的成對關係。例如,在網站、科學論文和其他文件的網路中,每個節點都包含由單字集合以及對其他節點的超連結或引用組成的內容。為了對此類資料集進行推理並做出預測和建議,擁有能夠捕獲在每個節點生成文本的過程以及它們之間的連結的模型非常有用。在本文中,我們將主題建模中的經典想法與統計物理界最近開發的混合成員塊模型的變體相結合。所得模型的優點是,其參數(包括每個文件的主題混合以及由此產生的重疊社區)可以透過簡單且可擴展的期望最大化演算法來推斷。我們在三個資料集上測試我們的模型,執行無監督主題分類和連結預測。對於這兩項任務,我們的模型都優於幾種現有的最先進方法,以顯著減少的計算量實現了更高的準確性,在幾分鐘內分析了包含 130 萬個單字和 44000 個連結的數據集。