Я хочу построить модель word2vec из текстового файла и использовать похожие слова для семантического поиска.
При работе с демонстрационными данными из API и с помощью предложений модель работает правильно.
file_content = open("F:\\Yash\\topic\\cric.txt").read()
tokens = nltk.word_tokenize(file_content)
model1 = Word2Vec(tokens, min_count = 0, workers=cpu_count())
Я должен получить похожие слова, но постоянно получаю сообщение об ошибке
KeyError: "слово 't20' отсутствует в словаре"
Содержимое моего крика.txt:
ProfileTalent - явно обнадеживающий термин, который сопровождает Рохита Шарму вокруг как тень;даже преследовал его время от времени.Кажется, это бремя, которое братство крикета наложило на него, и после более чем десятилетия в национальном урегулировании он был отягощен этикеткой.