Нужно удалить старые сообщения из файлов .eml, экспортируемых Thunderbird - PullRequest
1 голос
/ 17 февраля 2012

Есть эта чрезвычайно непослушная нить, с которой я должен справиться.На каждое из этих писем просто отвечали нормально, поэтому не имело большого значения, что у каждого была полная история, пока оно не достигло нескольких сотен писем.

Итак, я открыл их все в Thunderbird,и экспортировал их.Теперь я должен найти способ разделить каждое письмо до его собственного содержимого.Сохраняйте биты ответа, но просто избавьтесь от реального содержимого этих других электронных писем.

В настоящее время я использую Python, потому что я знаком с ним и использовал его для анализа XMLдо.Я попробовал BeautifulSoup, который, похоже, отлично справился с удалением трехмерных элементов div "gmail_quote", но при этом он, похоже, попытался разобраться в остальной части файла .eml, обернув различные биты в другие элементы, иразрушение формата.

Итак, мне нужно найти способ вырезать из файла, который не является чистым XML, но содержит много допустимого XML, каждый экземпляр определенного класса div и его дочерних элементов, не касаясьпростой текст.Весь раздел, с которым я хочу работать, это действительный XML (или, достаточно близко для BeautifulSoup с нечетными кавычками в атрибутах).

Я знаю, что мне также придется вырезать ответ в теле, ноэто достаточно просто.

1 Ответ

0 голосов
/ 17 февраля 2012

Не видя образца, я не могу точно сказать, как выполнить то, что вам нужно, но парсер из модуля электронной почты должен обрабатывать файлы .eml.

...