聖塔非研究所

摘要 PicAxe 是開源 Python 軟體,研究人員可以使用它從包含文字和圖像的 PDF 文件語料庫

2026-03-12 · 已發表論文 · 更新 2026/03/18 上午11:37

摘要 PicAxe 是開源 Python 軟體,研究人員可以使用它從包含文字和圖像的 PDF 文件語料庫中提取圖形。它旨在從語料庫中提取圖形,其中包括來自不同文化和時間段(語法異質)的文檔的掃描文件和“原生數字”PDF 文件(結構異構)。在本文中,我們描述了 PicAxe 的功能並在兩個語料庫上展示了其功能。其中一個語料庫包含代表 1929 年至 1974 年「微生物生物膜」概…

本頁只刊出中文翻譯與中文說明;英文原文請見下方原文連結。

原文連結

論文資訊

  • 類型:已發表論文
  • 日期:2026-03-12

摘要

PicAxe 是開源 Python 軟體,研究人員可以使用它從包含文字和圖像的 PDF 文件語料庫中提取圖形。它旨在從語料庫中提取圖形,其中包括來自不同文化和時間段(語法異質)的文檔的掃描文件和“原生數字”PDF 文件(結構異構)。在本文中,我們描述了 PicAxe 的功能並在兩個語料庫上展示了其功能。其中一個語料庫包含代表 1929 年至 1974 年「微生物生物膜」概念發展的掃描文件。第二個語料庫包含學術期刊《人類世》2014 年至 2023 年的「天生數位化」文件。