Извлечение текстов из PDF-файлов для построения модели с помощью Gensim - PullRequest
0 голосов
/ 11 декабря 2018

Я бы хотел тренировать модель с Gensim, используя новостные тексты из электронных газет (в формате pdf).Каков наилучший способ извлечения текстов из PDF-файлов и обработки текстов, готовых к обучению?Любые образцы кодов?

1 Ответ

0 голосов
/ 12 декабря 2018

Вы можете извлекать текст для каждой страницы с помощью PyPDF2 .Самый простой код будет выглядеть примерно так:

import PyPDF2

reader = PyPDF2.PdfFileReader("your_file.pdf")

for page in reader.pages:
    text = page.extractText()
    # do something with text
...