Парсер Adobe Acrobat «Сохранить как текст» - PullRequest
0 голосов
/ 11 июля 2019

Я пытаюсь преобразовать PDF-файлы в текст для разбора и столкнулся с проблемами со сложными структурированными PDF-файлами, такими как следующий пример отчета помощи учащимся: Sample Document Вы можете предположить, что мои PDF-файлы имеют текстовую кодировку.

Синтаксический анализ с использованием Apache Tika / PDFBox и Norconex Importer (который опирается на библиотеки Apache) возвращает следующее:

1. Last Name 2. First Name 3. Middle Initial
4. Mailing Address
5. City 6. State Abbreviation 7. ZIP Code
8. Social Security Number 9. Date of Birth 10. Your telephone number
11. Driver's License Number
12. Driver's License State Abbreviation
13. Student's E-mail Address
...[header/footer text]...
SMITH JOHN J
Processed: 04/22/2019
742 EVERGREEN TERRACE
SPRINGFIELD
XXX-XX-4444
JOHNSMITH@HOTMAIL.COM

, что трудно проанализировать, так как парные ключи и значения разделены другими ключами / значениямиили нежелательный текст.Однако, используя опцию Adobe Acrobat «Сохранить как текст», я получаю следующее:

1.Last Name
SMITH
16-character answer box for question 1
2.First Name
JOHN
12-character answer box for question 2
3.Middle Initial
J
1-character answer box for question 3 
4.Mailing Address
742 EVERGREEN TERRACE
35-character answer box for question 4 
5.City
SPRINGFIELD
16-character answer box for question 5 

Я предполагаю, что Adobe Acrobat имеет неявную словарную структуру для сопоставления полей с полями ответов, но есть ли документчтение библиотек, которые сохраняют эту структуру?Или есть способ настроить библиотеки Apache или Norconex для этого?Любой совет будет оценен.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...