Допустим, я пытаюсь вычислить среднее расстояние между словом и документом с помощью расстояния () или вычислить косинусное сходство между двумя документами с помощью n_simility (). Однако предположим, что эти новые документы содержат слова, которых не было в исходной модели. Как Генсим справляется с этим?
Я перечитывал документацию и не могу найти, что делает gensim с необоснованными словами.
Я бы предпочел, чтобы генсим не считал их в среднем. Таким образом, в случае Расстояния (), он просто не должен возвращать что-либо или что-то, что я могу легко удалить позже, прежде чем вычислять среднее значение с помощью numpy. В случае n_s Similarity, конечно же, gensim должен сделать это сам ...
Я спрашиваю, потому что документы и слова, которые моя программа должна будет классифицировать, в некоторых случаях будут содержать неизвестные слова, названия, бренды и т. Д., Которые я не хочу принимать во внимание при классификации. Итак, я хочу знать, придется ли мне предварительно обрабатывать каждый документ, который я пытаюсь классифицировать.