本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。
原文連結
論文資訊
- 類型:已發表論文
- 日期:2026-03-12
摘要
PicAxe 是開源 Python 軟體,研究人員可以使用它從包含文字和圖像的 PDF 文件語料庫中提取圖形。它旨在從語料庫中提取圖形,其中包括來自不同文化和時間段(語法異質)的文檔的掃描文件和“原生數字”PDF 文件(結構異構)。在本文中,我們描述了 PicAxe 的功能並在兩個語料庫上展示了其功能。其中一個語料庫包含代表 1929 年至 1974 年「微生物生物膜」概念發展的掃描文件。第二個語料庫包含學術期刊《人類世》2014 年至 2023 年的「天生數位化」文件。