Question

Есть эта чрезвычайно непослушная нить, с которой я должен справиться.На каждое из этих писем просто отвечали нормально, поэтому не имело большого значения, что у каждого была полная история, пока оно не достигло нескольких сотен писем.

Итак, я открыл их все в Thunderbird,и экспортировал их.Теперь я должен найти способ разделить каждое письмо до его собственного содержимого.Сохраняйте биты ответа, но просто избавьтесь от реального содержимого этих других электронных писем.

В настоящее время я использую Python, потому что я знаком с ним и использовал его для анализа XMLдо.Я попробовал BeautifulSoup, который, похоже, отлично справился с удалением трехмерных элементов div "gmail_quote", но при этом он, похоже, попытался разобраться в остальной части файла .eml, обернув различные биты в другие элементы, иразрушение формата.

Итак, мне нужно найти способ вырезать из файла, который не является чистым XML, но содержит много допустимого XML, каждый экземпляр определенного класса div и его дочерних элементов, не касаясьпростой текст.Весь раздел, с которым я хочу работать, это действительный XML (или, достаточно близко для BeautifulSoup с нечетными кавычками в атрибутах).

Я знаю, что мне также придется вырезать ответ в теле, ноэто достаточно просто.

sarwar · Answer 1 · 17 февраля 2012

Не видя образца, я не могу точно сказать, как выполнить то, что вам нужно, но парсер из модуля электронной почты должен обрабатывать файлы .eml.

Нужно удалить старые сообщения из файлов .eml, экспортируемых Thunderbird

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нужно удалить старые сообщения из файлов .eml, экспортируемых Thunderbird

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы