Я работал над бизнес-проблемой, где мне нужно найти сходство нового документа с существующим. Я использовал различные подходы, как показано ниже
1.Сумка слов + сходство косинусов
2.TFIDF + сходство косинусов
3.Word2Ve c + сходство косинусов
Никто из них не работал так, как ожидалось. Но, наконец, я нашел подход, который работает лучше, его Word2ve c + Мягкий косинус сходство
Но новая проблема заключается в том, что я получил несколько документов с одинаковым счетом сходства . Большинство из них актуальны, но мало из них, даже несмотря на то, что некоторые семантически похожие слова различаются