Распознавание таблиц и iamge в файлах PDF - PullRequest
1 голос
/ 02 октября 2019

Моя цель - подсчитать количество таблиц и изображений в файлах PDF. Мне НЕ нужно извлекать содержимое таблиц или диаграмм. Я использовал Tabula и pdftotext, и они оба извлекали контент, но я не нашел функции для подсчета количества таблиц и диаграмм. Я считаю, что Tabula должна иметь такую ​​функцию, чтобы идентифицировать таблицу, прежде чем она начнет извлекать содержимое в таблицы, потому что она будет пропускать содержимое, которого нет в таблице. (Я использовал Word для создания PDF-файла, чтобы подтвердить это. Файл называется check.pdf по ссылке ниже).

Мое текущее решение: так как в Табуле есть опция «множественная таблица», я могу сосчитатьколичество элементов в DataFrame с len(DataFrame). Однако я не могу проверить это из-за какой-то проблемы со шрифтом. (См. Сообщение об ошибке ниже)

Oct 01, 2019 8:25:15 PM org.apache.pdfbox.pdmodel.font.FileSystemFontProvider addTrueTypeFont SEVERE: Could not load font file: C:\WINDOWS\FONTS\mstmc.ttf

Пожалуйста, обратитесь к этой ССЫЛКЕ для образца файла PDF . Для этого примера файла желаемым выводом будет 3 таблицы (1 на каждой странице 1, 4 и 5) и 1 график (на странице 4). Я использую Python, но я открыт для любого другого языка. Любая помощь высоко ценится как для проблемы с шрифтами, так и для распознавания таблиц.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...