Как найти, что один текст похож на часть другого? - PullRequest
0 голосов
/ 10 апреля 2019

Мы знаем, как оценить сходство двух целых текстов, например, по расстоянию Word Mover.Как найти фрагмент внутри одного текста, который похож на другой текст?

1 Ответ

1 голос
/ 11 апреля 2019

Вы можете разбить текст на куски - в идеале по естественным группировкам, таким как предложения или абзацы, - затем выполнить попарные сравнения каждого куска друг с другом, используя некоторую меру расстояния текста.

Расстояние Word Mover может дать впечатляющие результаты, но его довольно медленно / дорого вычислять, особенно для больших текстов и большого количества парных сравнений.Другие более простые итоговые векторы для текста, такие как простое среднее значение всех слов-векторов текста или текст-вектор, извлеченный из текста, такого как «Вектор абзаца» (aka Doc2Vec), будут намного быстрее и могутдостаточно хорош или, по крайней мере, будет хорошим быстрым 1-м проходом, чтобы ограничить количество пар кандидатов, на которых вы делаете что-то более дорогое.

...