Я пытаюсь извлечь текст из файла pdf на русском языке и использовать этот текст в качестве данных для токенизации, лемматизации и т. Д. c. с NLTK на Jupyter Notebook. Я использую PyPDF2, но у меня все еще возникают проблемы.
Я создаю функцию и передаю ей pdf в качестве входных данных:
из PyPDF2 import PdfFileReader
def getTextPDF (pdfFileName): pdf_file = open (pdfFileName, "rb") read_pdf = PdfFileReader (pdf_file)
text = []
for i in range(0, read_pdf.getNumPages()):
text.append(read_pdf.getPage(i).extractText())
return "\n".join(text)
Затем я вызываю функцию:
pdfFile = "sample_russian.pdf" print ("PDF: \ n", myreader_pdf.getTextPDF (pdfFile))
Но я получаю длинный розовый список того же предупреждения об ошибке:
PdfReadWarning: в заголовке объекта b обнаружены лишние пробелы '1' b'0 '[pdf.py:.....pting
Любые идеи были бы очень полезны! Заранее спасибо!