Я начинаю знакомиться с Word2Vec, но борюсь с проблемой и не могу найти что-то похожее ... Я хочу использовать gensims Word2Vec в импортированном PDF-документе (книге).Для импорта я использовал PyPDF2 и сохранил всю книгу в виде списка.Кроме того, я использовал gensims simple_preprocess для предварительной обработки данных.До сих пор это работало, я получил следующий вывод:
text=['schottky','diode','semiconductors',...]
Итак, я попытался использовать Word2Vec:
from gensim.models import Word2Vec
model=Word2Vec(text, size=100, window=5, min_count=5, workers=4)
words=list(model.wv.vocab)
, но вывод был таким:
print(words)
['c','h','t','k','d',...]
Я ожидал также те же слова, что и в текстовом списке, а не только некоторые символы.Когда я пытался найти отношения между словами (например, «schottky» и «diode»), я получил сообщение об ошибке, что ни одно из этих слов не включено в словарь.
Сначала я подумал, что импорт неправильный, но я получил тот же результат с textract вместо PyPDF2.
Кто-то знает, в чем проблема?Спасибо за вашу помощь!
Приложение:
Импорт книги
content_text = [] number_of_inputs = len (os.listdir (путь))
file_to_open=path
open_file=open(file_to_open,'rb')
read_pdf=PyPDF2.PdfFileReader(open_file)
number_of_pages=read_pdf.getNumPages()
page_content=""
for page_number in range(number_of_pages):
page = read_pdf.getPage(page_number)
page_content += page.extractText()
content_text.append(page_content)