Я бы хотел тренировать модель с Gensim, используя новостные тексты из электронных газет (в формате pdf).Каков наилучший способ извлечения текстов из PDF-файлов и обработки текстов, готовых к обучению?Любые образцы кодов?
Вы можете извлекать текст для каждой страницы с помощью PyPDF2 .Самый простой код будет выглядеть примерно так:
import PyPDF2 reader = PyPDF2.PdfFileReader("your_file.pdf") for page in reader.pages: text = page.extractText() # do something with text