Определите дубликаты текстовых абзацев в нескольких исходных текстовых файлах. - PullRequest
0 голосов
/ 01 ноября 2019

Допустим, у меня есть 10 сообщений электронной почты, все из которых содержат нижний колонтитул с юридической оговоркой. Мне нужно провести анализ текста на этих 10 электронных письмах, но сначала я хочу удалить юридическую оговорку.

Я хочу обработать все электронные письма и определить нижний колонтитул во всех этих 10, сохранить его где-нибудь еще и удалить из 10 электронных писем. Сообщения электронной почты уже хранятся в массиве.

Я пытался использовать array_intersect, и это работает вроде все в порядке. Однако он не многомерный, и мне нравится запускать его для нескольких текстовых источников.

Я также изучаю NipTools, чтобы узнать, может ли он заархивировать то, что я хочу, но никогда раньше не использовал NLP.

$result=array_intersect($a1,$a2);

Я хочу, чтобы вывод был переменной, содержащей дубликаттекст, и я хочу, чтобы текст был удален из исходного текста.

Меня больше всего интересуют инструменты и код для идентификации, остальное я могу сделать сам.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...