Я пытаюсь сгенерировать алгоритм, который может определить сходство ряда предложений.В частности, учитывая начальное предложение, я хочу определить, является ли следующее предложение подходящим дополнением.
Например, возьмите следующее:
Моя собака любит пить воду.
Все хорошо, это только первое предложение.
Собака ненавидит кошек.
Все хорошо, оба предложения ссылаются на собак.
Любит гулять по пляжу.
Все хорошо, "это" достаточно нейтрально, чтобы быть подходящим общением.
Пицца великолепна с ананасом сверху.
Это не будет подходящим дополнением, поскольку предложение не основывается на "повествовании", созданном первыми тремя предложениями.
Чтобы немного описать проект, я создал библиотеку, которая генерировала марковские текстовые цепочки на основе входного текста.Этот текст затем корректируется грамматически, чтобы получить жизнеспособные предложения.Теперь я хочу объединить эти предложения в единое целое.