Метод infer_vector()
ожидает список токенов, точно так же, как свойство words
текстовых примеров (обычно TaggedDocument
объектов), которые использовались для обучения модели.
Вы предоставляете простую строку, 'phone_comments'
, которая будет выглядеть infer_vector()
как список ['p', 'h', 'o', 'n', 'e', '_', 'c', 'o', 'm', 'm', 'e', 'n', 't', 's']
.Таким образом, ваш исходный вектор для most_similar()
, вероятно, является мусором.
Кроме того, вы не получаете обратно ввод 'phone_comments'
, вы получаете другую строку 'phone comments'
.Если это имя тега в модели, то это должно быть указано tag
во время обучения модели.Его поверхностное сходство с phone_comments
может быть бессмысленным - это разные строки.
(Но это также может указывать на то, что у вашей тренировки тоже были проблемы, и вместо этого вы натренировали текст, который должен был быть words=['phone', 'comments']
как words=['p', 'h', 'o', 'n', 'e', ' ', 'c', 'o', 'm', 'm', 'e', 'n', 't', 's']
.)