Измерение сходства документов - огромная задача c и активная область исследований. Существует множество способов определить шаблон , но ни один из них не идеален.
Но обратите внимание на функции пакета wydyr
. Разбивайте документы на разделы размером с абзац (или меньше). Используйте pairwise_count
и pairwise_cor
, чтобы измерить сходство между, например, открывающими и закрывающими частями документов.
Также получите копию Обработка текста с помощью R Сильджа и Робинсона; обратите внимание на главу 4.