test = pd.read_csv('test.csv')
train = pd.read_csv('train.csv')
def prep_corpus():
sentences = []
for x in test['title']:
sentences.append(x.strip().split())
for x in train['title']:
sentences.append(x.strip().split())
return sentences
corpus = prep_corpus()
Корпус - это список предложений, где одно предложение - это один список слов:
word_model = Word2Vec(corpus, workers = 2,sg=1, iter = 5)
word_model['maybelline', 'clear'].shape
У меня есть слово vector, которое, кажется, работает:
Однако, когда я пытаюсь выполнить word_model ['интенсивность], я получаю сообщение об ошибке: «слово« интенсивность »отсутствует в словаре»
И это несмотря на то, что слово интенсивность есть в списке корпусов. Появляется один раз в тесте.
Я проверил список корпусов, интегрируя его и обнаружив индекс предложения, содержащего «интенсивность»
Я также проверил фрейм данных и нашел его внутри:
Есть также некоторые слова, которые есть в списке корпусов, но отсутствуют в словаре word2vec .
Я пытался использовать как cbow и skipgram и пробовать разные эпохи 1,5,15.
Во всех сценариях я все еще сталкиваюсь с этой ошибкой. Как мне решить эту проблему?