Можно ли сделать скрипт для прохождения налоговых PDF-файлов? - PullRequest
0 голосов
/ 23 мая 2018

Я хотел знать, можно ли было сделать скрипт на питоне для просмотра налоговых документов.В основном проверьте, чтобы увидеть, чей это налоговый документ, и выведите его в текстовый файл.У меня много документов, которые нужно просмотреть, и посмотреть, кто их отправил. Хотел узнать, можно ли сделать скрипт на Python, чтобы пройти через все это и собрать необходимую информацию.

edit: чтометод будет лучшим способом достижения этого?

1 Ответ

0 голосов
/ 23 мая 2018

Абсолютно.Отличное руководство для разбора PDF-файлов, расположенное здесь: https://automatetheboringstuff.com/chapter13/

Некоторые примеры кода, которые могут работать.

import PyPDF2
pdfFileObj = open('meetingminutes.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
dfReader.numPages

pageObj = pdfReader.getPage(0)
pageObj.extractText()

Затем можно использовать регулярные выражения (re), чтобы проанализировать текст, чтобы посмотреть черезтекст и найти то, что вы хотите.Отличное учебное пособие находится здесь: https://automatetheboringstuff.com/chapter7/

Вы действительно должны использовать все automatetheboringstuff.com для базовой автоматизации работы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...