Косинусное сходство используется для расчета угла между двумя n-мерными векторами.Эти векторы в основном производятся встраиваниями.Это предварительно обученные модели, которые производят вложения слов или векторы фиксированного размера.
Косинусное сходство в основном используется с векторами, создаваемыми вложениями слов.Если вы используете что-то вроде Doc2Vec, то вы получите вектор для всего документа.Эти векторы можно классифицировать с помощью косинусного сходства.
В вашем случае вам следует попробовать классификатор текста LSTM, используя слои Embedding.Слои 1D Convolution также могут быть полезны.
Также, что касается TF-IDF, это полезно для классификации текста, которая зависит от определенных слов в корпусе.Слова с более высокой периодичностью и меньшей частотой документа имеют более высокую оценку TF-IDF.Модель учится классифицировать тексты на основе таких оценок.
В большинстве случаев RNN являются лучшими для классификации текстов.Использование предварительно обученных вложений делает модель эффективной.
Кроме того, вы можете попробовать байесовскую классификацию текста.Это было очень полезно при классификации спама.
Совет:
Вы можете реализовать вышеупомянутые методы друг с другом, создав систему классификации текста.Следуя такому процессу,
- Создание вложений из Doc2Vec.
- Сравнение схожести ввода с другими текстами и, таким образом, определение его класса.
- Использование встраивания всеть LSTM для получения вероятностей классов.
- Применить байесовскую классификацию текста.
Шаги 2, 3, 4 дают три предсказания.Если прогноз большинства был CLASS1, то мы можем сделать вывод системы как CLASS1!.