Я пытаюсь вычислить когерентность семанти c в данном абзаце / расшифровке, ie. если кто-то сходит с дистанции, говоря о предмете или топи c - более конкретно, описывая изображение (изображение может иметь много дополнительных деталей).
Например -
Стенограмма 1: Мне нравится заниматься спортом. В мире так много любителей спорта.
Стенограмма 2: Мне нравится заниматься спортом. Существует смертельный вирус, распространяющийся по всему миру.
Semanti c когерентность должна быть высокой для Transcript 1 и низкой для Transcript 2. Я использую BERT (bert-as-service) для генерации вложений предложений для фразы. Затем я пытаюсь сравнить предложение i и i + 1 в данном транскрипте, вычисляя косинусное сходство между векторами вложения предложения. Я также попытался использовать скользящее окно с перекрытием и без него для расчета косинусного сходства.
Проблема, с которой я сталкиваюсь, заключается в том, что косинусные сходства очень близки для двух предложений, например, в приведенных выше примерах, тогда как я ожидал бы большей разницы между ними.
Я думаю использования модели LSA, обученной на данных Википедии, чтобы посмотреть, смогу ли я увидеть лучшую дифференциацию. Есть ли лучший способ сделать это?