摘要針對缺失值的社會科學方法可以預測來自密集資料集（通常是調查）中被避免、未要求或遺失的資訊｜聖塔非研究所

本頁只刊出中文翻譯與中文說明；英文原文請見下方原文連結。

原文連結

論文資訊

類型：已發表論文
日期：2024-03-12

摘要

針對缺失值的社會科學方法可以預測來自密集資料集（通常是調查）中被避免、未要求或遺失的資訊。作者提出了一種用於缺失資料插補的矩陣分解方法，該方法（1）識別潛在因素，以對受訪者和回應之間的相似性進行建模；（2）對因素進行正則化，以減少其對最佳資料重建的過度影響。這種方法可以使社會科學家從具有大量特徵的稀疏資料集中得出新的結論，例如歷史或檔案來源、高流失率的線上調查或從網路抓取創建的資料集，這些資料集混淆了傳統的插補技術。作者介紹了矩陣分解技術並詳細介紹了它們的機率解釋，並證明了這些技術與魯賓多重插補框架的一致性。作者透過使用人工數據和來自一般社會調查和全國青年縱向研究案例的現實世界子集的數據進行模擬，表明矩陣分解技術可能是首選。這些發現建議在多種設定中使用矩陣分解進行資料重建，特別是當資料是布林型和分類資料以及大量資料遺失時。