Python Tika не может разобрать pdf с URL - PullRequest
0 голосов
/ 25 ноября 2018

Python для разбора онлайн PDF для будущего использования.Мой код ниже.

from tika import parser
import requests
import io
url = 'https://www.whitehouse.gov/wp-content/uploads/2017/12/NSS-Final-12-18-2017-0905.pdf'
response = requests.get(url)
with io.BytesIO(response.content) as open_pdf_file:
    pdfFile = parser.from_file(open_pdf_file)
print(pdfFile)

Тем не менее, он показывает

AttributeError: '_io.BytesIO' объект не имеет атрибута 'decode'

Я взял примерот Как я могу прочитать файл PDF из встроенного raw_bytes (не из файла)?

В этом примере используется PyPDF2.Но мне нужно использовать Тику, так как у Тики результат лучше, чем у PyPDF2.

Спасибо за помощь

1 Ответ

0 голосов
/ 25 ноября 2018

Чтобы использовать tika, вам нужно установить JAVA 8 .Код, который вам понадобится для получения и распечатки содержимого PDF-файла, выглядит следующим образом:

from tika import parser

url = 'https://www.whitehouse.gov/wp-content/uploads/2017/12/NSS-Final-12-18-2017-0905.pdf'

pdfFile = parser.from_file(url)

print(pdfFile["content"])
...