Извлечение информации из документов формы - PullRequest
0 голосов
/ 05 марта 2020

В настоящее время я работаю над проектом python, в котором мне нужно извлечь некоторую информацию из PDF-документа. Список извлекаемой информации одинаков для всех документов. PDF - это структурированные документы на разных языках, которые могут быть ассимилированы с документами форм.

Мне интересно, является ли это какой-либо моделью машинного обучения или способом, позволяющим мне решить эту задачу. :)

Образцы различных PDF-документов Образец 1 Образец 2

Я хотел бы извлечь как валюту, так и первоначальная дата выпуска, поэтому в качестве входных данных будет указываться: (EUR, 30 января 2013 г.) для первого образца и (EUR, 29 января 2009 г.) для второго.

Максим

1 Ответ

0 голосов
/ 05 марта 2020

Вы пытаетесь извлечь информацию из заданной c строки / столбца и т.д. c, и всегда ли формат PDF одинаково форматируется, по крайней мере, для большинства строк / столбцов? Если это так, вам может не понадобиться модель ML, и вы можете просто использовать awk или sed.

ОБНОВЛЕНИЕ с ответом:

Сначала используйте pdftotext или что-то подобное, чтобы разобрать pdf в текст файл. Как только вы получите его в таком формате (новые строки необязательны) в файл с именем "yourfile.txt":

Note Currency   EUR
Trade Date  16 January 2009
Initial Issue Date 29 January 2009

Note Currency   EUR
Trade Date  16 January 2009
Initial Issue Date 29 January 2009

Note Currency   EUR
Trade Date  16 January 2009
Initial Issue Date 29 January 2009

вы можете использовать

awk '$1 == "Note"{print "\(" $3}' yourfile.txt  > out1
awk '$2 == "Issue" {print ", "$4" " $5" " $6"\)"}' yourfile.txt > out2
paste -d" " out1 out2 > formatted.txt

Ваши отформатированные результаты теперь будут находиться в файле с именем formatted.txt.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...