Разбор неструктурированных данных в структурированные данные из PDF в R или Python - PullRequest
0 голосов
/ 05 февраля 2020

Мне нужно прочитать 100 PDF-документов, где мне нужно извлечь текстовую информацию из PDF-файла и экспортировать Excel. В pdf есть различный текст, из которого мне нужно создать таблицу данных. Я даю часть PDF-файла, из которого мне нужно извлечь информацию.

I am doing my job in the company(Employee Id : 12345678)
Name : XXXXX YYYYY
** Date of Birth : 12/12/2001**
** Place : AAAAAAAA**
** Address: 111, BLOCK 1,**
** XYZ LOCALITY**
** BANGKOK **
** Email id: xyz@yahoo.in**

Я должен создать столбцы и извлечь всю информацию вместе с ней из всех PDF-файлов в Excel. Я пытаюсь использовать tesseract и pdf_convert.

Мой вывод должен выглядеть следующим образом:

Date              Address         Place 
12/12/2001       XYZ Locality    AAAAAAA
                  bangkok
...