Question

Я бы хотел тренировать модель с Gensim, используя новостные тексты из электронных газет (в формате pdf).Каков наилучший способ извлечения текстов из PDF-файлов и обработки текстов, готовых к обучению?Любые образцы кодов?

myrmica · Answer 1 · 12 декабря 2018

Вы можете извлекать текст для каждой страницы с помощью PyPDF2 .Самый простой код будет выглядеть примерно так:

import PyPDF2

reader = PyPDF2.PdfFileReader("your_file.pdf")

for page in reader.pages:
    text = page.extractText()
    # do something with text

Извлечение текстов из PDF-файлов для построения модели с помощью Gensim

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Извлечение текстов из PDF-файлов для построения модели с помощью Gensim

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы