Способы получения метрического сходства c между двумя полнотекстовыми документами? - PullRequest
1 голос
/ 30 января 2020

Итак, представьте, что у меня есть три текстовых документа, например (пусть 3 случайно сгенерированных текста).

Документ 1:

"Целые каждые мили, как выложенные плиткой в ​​семь или. он весь почитает мистера ой мимо. Возможная постель тебе доставляет удовольствие вежливость мальчик элегантность ветчина. Он мешает просьбе, если в довольном. Картинка тоже и беспокойство было утешением. Десять трудно напоминало рвение, ни. Тот же парк нес на быть .... "

Документ 2:

"Стиль слишком индивидуален. Совершенно оскорбительно попытка добавить аранжировку возраста джентльмен завершил. Получите, кто необычно наше выражение десять раз считается случайным путешествием. Всегда читал рассказать год да пусть мужчины называют его. Пикед сын превратился в толстый доход, сыгранный в конце калитки ... "

Если я хочу получить в python (используя библиотеки) metri c на насколько эти два документа похожи на третий (другими словами, какой из двух документов больше похож на третий), каков будет лучший способ продолжить? * 10 17 *

edit : я наблюдал другие вопросы, на которые они отвечают, сравнивая отдельные предложения с другими предложениями, но меня это не интересует, так как я хочу сравнить полный текст (состоящий из связанных предложений ) против другого полного текста и получения числа (которое, например, может быть больше, чем другое сравнение, полученное с другим документом, который менее похож на целевой)

1 Ответ

1 голос
/ 30 января 2020

Нет простого ответа на этот вопрос. Поскольку сходство будет работать лучше или хуже в зависимости от конкретной задачи, которую вы хотите выполнить.

Сказав это, у вас есть несколько вариантов сравнения блоков текста. Эта публикация сравнивает и ранжирует несколько различных способов вычисления сходства предложений, которые затем можно объединить для получения полного сходства документов. Как это сгруппировать? также будет зависеть от вашей конкретной задачи. Простой, но часто эффективный подход состоит в том, чтобы вычислить среднее сходство предложений в 2 (или более) документах.

Другие полезные ссылки по этой теме:

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...