прочитать дату с помощью pdfminer3 в python - PullRequest
0 голосов
/ 26 мая 2020

Я пытаюсь автоматически извлечь дату, которая стоит после слова «дата» в pdf. Я попробовал код, предложенный ЛаВаром в этом ответе: Как использовать PDFminer.six с python 3?

Это работает очень хорошо, и я получаю текстовую строку документа. К сожалению, дата после слова 'date' отсутствует и заменена следующим: "{{pf-fecha format =" dd / MM / yyyy "}}" (это документ sh spani, fecha = date).

Другие даты в документе читаются как даты - я думаю, это как-то связано с форматированием этой конкретной даты? Есть ли способ получить эту дату из этого pdf-файла?

Я использую python 3.7 с версией 2018.12.3.0 pdfminer3.

...