Я думаю, TF-IDF может хорошо подойти к вашей проблеме, потому что:
- Акцент на словах, встречающихся во многих документах (скажем, 90% ваших предложений / документов содержат слово «и»), значительно меньше, по сути, придавая больший вес фразе, специфичной для конкретного документа (это часть IDF).
- Порядок в терминах частоты (TF) не имеет значения, в отличие от методов с использованием скользящих окон и т. Д.
- Он очень легкий по сравнению с методами, ориентированными на представление, такими как упомянутый выше.
Большой недостаток : ваши данные, в зависимости от размера корпуса, могут иметь слишком много измерений (то же количество измерений, что и у уникальных слов), вы можете использовать основание / лемматизацию для смягчения этой проблемы до некоторой степени.
Вы можете рассчитать сходство между двумя векторами TF-IDF, используя, например, косинусное сходство.
РЕДАКТИРОВАТЬ: Woops, этот вопрос 8 месяцев, извините за удар, может быть, он будет полезен для кого-то еще, хотя.