«Слово« **** »не в словаре» - PullRequest
0 голосов
/ 04 апреля 2019

Я хочу построить модель word2vec из текстового файла и использовать похожие слова для семантического поиска.

При работе с демонстрационными данными из API и с помощью предложений модель работает правильно.

file_content = open("F:\\Yash\\topic\\cric.txt").read()
tokens = nltk.word_tokenize(file_content)
model1 = Word2Vec(tokens, min_count = 0, workers=cpu_count())

Я должен получить похожие слова, но постоянно получаю сообщение об ошибке

KeyError: "слово 't20' отсутствует в словаре"

Содержимое моего крика.txt:

ProfileTalent - явно обнадеживающий термин, который сопровождает Рохита Шарму вокруг как тень;даже преследовал его время от времени.Кажется, это бремя, которое братство крикета наложило на него, и после более чем десятилетия в национальном урегулировании он был отягощен этикеткой.

...