Как открыть русскоязычные PDF-файлы для обработки NLTK - PullRequest
0 голосов
/ 03 августа 2020

Я пытаюсь извлечь текст из файла pdf на русском языке и использовать этот текст в качестве данных для токенизации, лемматизации и т. Д. c. с NLTK на Jupyter Notebook. Я использую PyPDF2, но у меня все еще возникают проблемы.

Я создаю функцию и передаю ей pdf в качестве входных данных:

из PyPDF2 import PdfFileReader

def getTextPDF (pdfFileName): pdf_file = open (pdfFileName, "rb") read_pdf = PdfFileReader (pdf_file)

text = []

for i in range(0, read_pdf.getNumPages()):
    text.append(read_pdf.getPage(i).extractText())
return "\n".join(text)

Затем я вызываю функцию:

pdfFile = "sample_russian.pdf" print ("PDF: \ n", myreader_pdf.getTextPDF (pdfFile))

Но я получаю длинный розовый список того же предупреждения об ошибке:

PdfReadWarning: в заголовке объекта b обнаружены лишние пробелы '1' b'0 '[pdf.py:.....pting

Любые идеи были бы очень полезны! Заранее спасибо!

...