Извлечение текста из PDF, преобразованного с веб-страницы с использованием Pypdf2 - PullRequest
0 голосов
/ 13 марта 2020

Я использовал chrome, чтобы конвертировать веб-страницу в PDF, используя опцию сохранить как PDF. Теперь проблема в том, что когда я извлекаю из него данные с помощью PyPDF2, он показывает Null, тогда как он легко работает с другими файлами PDF. Я знаю, что могу извлечь данные непосредственно с веб-сайта, но я хочу понять, почему это не работает. Он показывает правильное количество страниц, но когда я извлекаю текст (), он ничего не показывает. Кто-нибудь знает в чем проблема? Ссылка на страницу: https://en.wikipedia.org/wiki/Rapping. Я преобразовал эту веб-страницу в pdf.

import PyPDF2
pdfFileObj = open('C:/Users/System/Desktop/Rapping - Wikipedia.pdf','rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
pdfFileObj.close()
...