Расчет семанти c когерентности в заданной речевой транскрипции - PullRequest
0 голосов
/ 03 марта 2020

Я пытаюсь вычислить когерентность семанти c в данном абзаце / расшифровке, ie. если кто-то сходит с дистанции, говоря о предмете или топи c - более конкретно, описывая изображение (изображение может иметь много дополнительных деталей).

Например -

Стенограмма 1: Мне нравится заниматься спортом. В мире так много любителей спорта.

Стенограмма 2: Мне нравится заниматься спортом. Существует смертельный вирус, распространяющийся по всему миру.

Semanti c когерентность должна быть высокой для Transcript 1 и низкой для Transcript 2. Я использую BERT (bert-as-service) для генерации вложений предложений для фразы. Затем я пытаюсь сравнить предложение i и i + 1 в данном транскрипте, вычисляя косинусное сходство между векторами вложения предложения. Я также попытался использовать скользящее окно с перекрытием и без него для расчета косинусного сходства.

Проблема, с которой я сталкиваюсь, заключается в том, что косинусные сходства очень близки для двух предложений, например, в приведенных выше примерах, тогда как я ожидал бы большей разницы между ними.

Я думаю использования модели LSA, обученной на данных Википедии, чтобы посмотреть, смогу ли я увидеть лучшую дифференциацию. Есть ли лучший способ сделать это?

...