Python для разбора онлайн PDF для будущего использования.Мой код ниже.
from tika import parser import requests import io url = 'https://www.whitehouse.gov/wp-content/uploads/2017/12/NSS-Final-12-18-2017-0905.pdf' response = requests.get(url) with io.BytesIO(response.content) as open_pdf_file: pdfFile = parser.from_file(open_pdf_file) print(pdfFile)
Тем не менее, он показывает
AttributeError: '_io.BytesIO' объект не имеет атрибута 'decode'
Я взял примерот Как я могу прочитать файл PDF из встроенного raw_bytes (не из файла)?
В этом примере используется PyPDF2.Но мне нужно использовать Тику, так как у Тики результат лучше, чем у PyPDF2.
Спасибо за помощь
Чтобы использовать tika, вам нужно установить JAVA 8 .Код, который вам понадобится для получения и распечатки содержимого PDF-файла, выглядит следующим образом:
from tika import parser url = 'https://www.whitehouse.gov/wp-content/uploads/2017/12/NSS-Final-12-18-2017-0905.pdf' pdfFile = parser.from_file(url) print(pdfFile["content"])