Лучшая практика для чтения PDF в Python - PullRequest
0 голосов
/ 26 декабря 2018

Я пытаюсь прочитать pdf-документ (я удалил некоторую причину содержания конфиденциальных данных: https://ufile.io/bgghw) в python.Я должен работать с флажками и выполнять действия, основанные на этом и другом тексте.

Я попробовал PyPDF3, но он дал только испорченный вывод, после небольшого исследования я нашел pdfminer, который звучит многообещающе с недостатком использовать python2.7.

Я не уверен, есть ли другие пакеты или это лучший способ работы с pdf в python, поскольку вся информация, которую я получил, насчитывает несколько лет, и большая часть информации очень противоречива.Конечно, я мог бы выбрать лучший пакет для моего случая:)

Спасибо за любой совет!

1 Ответ

0 голосов
/ 27 декабря 2018

Первый вариант: PyPDF2

Сначала запустите его в cmd для установки PyPDF2: (может работать лучше, чем PyPDF3, который вы уже пробовали)

pip install PyPDF2

Затем дляИзвлеките текст из файла PDF, используя следующий код:

# importing required modules 
import PyPDF2 

# creating a pdf file object 
pdfFileObj = open('example.pdf', 'rb') 

# creating a pdf reader object 
pdfReader = PyPDF2.PdfFileReader(pdfFileObj) 

# printing number of pages in pdf file 
print(pdfReader.numPages) 

# creating a page object 
pageObj = pdfReader.getPage(0) 

# extracting text from page 
print(pageObj.extractText()) 

# closing the pdf file object 
pdfFileObj.close() 

2-й вариант: Textract

Запустите это в cmd для установки textract

pip install textract

Затем, чтобы прочитать PDF, используйте следующий код:

import textract
text = textract.process('path/to/pdf/file', method='pdfminer')

Удачи!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...