Итак, представьте, что у меня есть три текстовых документа, например (пусть 3 случайно сгенерированных текста).
Документ 1:
"Целые каждые мили, как выложенные плиткой в семь или. он весь почитает мистера ой мимо. Возможная постель тебе доставляет удовольствие вежливость мальчик элегантность ветчина. Он мешает просьбе, если в довольном. Картинка тоже и беспокойство было утешением. Десять трудно напоминало рвение, ни. Тот же парк нес на быть .... "
Документ 2:
"Стиль слишком индивидуален. Совершенно оскорбительно попытка добавить аранжировку возраста джентльмен завершил. Получите, кто необычно наше выражение десять раз считается случайным путешествием. Всегда читал рассказать год да пусть мужчины называют его. Пикед сын превратился в толстый доход, сыгранный в конце калитки ... "
Если я хочу получить в python (используя библиотеки) metri c на насколько эти два документа похожи на третий (другими словами, какой из двух документов больше похож на третий), каков будет лучший способ продолжить? * 10 17 *
edit : я наблюдал другие вопросы, на которые они отвечают, сравнивая отдельные предложения с другими предложениями, но меня это не интересует, так как я хочу сравнить полный текст (состоящий из связанных предложений ) против другого полного текста и получения числа (которое, например, может быть больше, чем другое сравнение, полученное с другим документом, который менее похож на целевой)