Выявление повторяющихся абзацев (шаблонов) в нескольких документах электронной почты - PullRequest
0 голосов
/ 27 мая 2020

Я начал изучать интеллектуальный анализ текста и обработку естественного языка с помощью R и Python. Недавно я пытался выполнить некоторые базовые задачи, такие как: (1) наиболее часто используемые термины в наборе документов (документы электронной почты) и (2) кластеризация. «Проблема» связана с некоторыми повторяющимися абзацами, такими как заявления об отказе от ответственности, подписи в электронных письмах и т. Д .; потому что они добавляют немного шума к моим результатам ... Есть ли способ определить шаблонные или повторяющиеся абзацы в наборе документов? Чтобы удалить их при выполнении задач предварительной обработки.

1 Ответ

1 голос
/ 27 мая 2020

Измерение сходства документов - огромная задача c и активная область исследований. Существует множество способов определить шаблон , но ни один из них не идеален.

Но обратите внимание на функции пакета wydyr. Разбивайте документы на разделы размером с абзац (или меньше). Используйте pairwise_count и pairwise_cor, чтобы измерить сходство между, например, открывающими и закрывающими частями документов.

Также получите копию Обработка текста с помощью R Сильджа и Робинсона; обратите внимание на главу 4.

...