Как я могу обнаружить визуальные блоки в PDF? - PullRequest
0 голосов
/ 23 февраля 2019

Я пытаюсь возобновить распознавание текста.Моя первая проблема, прежде чем OCR, получить основные блоки документа.

Поскольку все резюме имеют «визуальные блоки» (ссылаясь на профессиональный опыт, навыки, языки, хобби, что угодно ...),Интересно, есть ли какое-нибудь решение с открытым исходным кодом, чтобы «разбить» документ на «блоки», очевидно, независимо от дизайна макета (я полагаю, здесь будет работать какой-то ИИ)

Спасибо

1 Ответ

0 голосов
/ 23 февраля 2019

Сначала распакуйте ваш pdf, используя zlib.После этого вы сможете просматривать PDF в читабельном формате - https://web.archive.org/web/20141010035745/http://gnupdf.org/Introduction_to_PDF#A_first_example

Формат PDF похож на postscript.

также попробуйте конвертировать PDF в Postscript, чтобы увидеть, как содержимоерасположены.

вы можете распаковать pdf с помощью pdf-парсера https://blog.didierstevens.com/2008/10/30/pdf-parserpy/

попробуйте это тоже - https://gist.github.com/averagesecurityguy/ba8d9ed3c59c1deffbd1390dafa5a3c2

Как только вы увидите, как представлены ваши данные=> затем вы можете начать применять алгоритмы, чтобы извлечь больше смысла.

...