Как извлечь адрес электронной почты из нескольких текстовых файлов - PullRequest
0 голосов
/ 01 декабря 2009

У меня есть примерно 96K текстовых электронных писем, для которых я хочу извлечь адрес отправителя. Я верю, что я могу использовать domdoc для этого, но мне нужен кто-то, чтобы начать меня. Кто-нибудь может посоветовать, пожалуйста, есть ли лучший способ сделать это?

Спасибо, Jim

Ответы [ 2 ]

2 голосов
/ 01 декабря 2009

Не вижу причин делать это в PHP ... Если файлы представлены в виде простого текста, скопируйте файлы в каталог (например) emails /, затем

cat * | grep "From: " | egrep -oi ‘\b[A-Za-z0-9._%-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}’ | sort | uniq > mail.list

Конечно, если у вас есть , чтобы сделать это в PHP, тогда

  1. Копирование файлов / писем в каталог
  2. Получить список файлов с помощью readdir ()
  3. Прочитать файл (ы)
  4. Разделить заголовок на отдельную строку
  5. Выполните preg_match () в этой строке, чтобы найти адрес электронной почты и установить его в $ email_arr
  6. Когда закончите, сделайте array_unique () для $ email_arr.
0 голосов
/ 01 декабря 2009

Использование регулярного выражения в какой-либо форме будет лучшим способом сделать это. Если вы можете сохранить свои текстовые электронные письма в файлы, вы можете использовать что-то вроде Textpad для поиска адресов электронной почты на основе регулярного выражения.

Вы сможете найти регулярные выражения для адресов электронной почты в Интернете.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...