Есть эта чрезвычайно непослушная нить, с которой я должен справиться.На каждое из этих писем просто отвечали нормально, поэтому не имело большого значения, что у каждого была полная история, пока оно не достигло нескольких сотен писем.
Итак, я открыл их все в Thunderbird,и экспортировал их.Теперь я должен найти способ разделить каждое письмо до его собственного содержимого.Сохраняйте биты ответа, но просто избавьтесь от реального содержимого этих других электронных писем.
В настоящее время я использую Python, потому что я знаком с ним и использовал его для анализа XMLдо.Я попробовал BeautifulSoup, который, похоже, отлично справился с удалением трехмерных элементов div "gmail_quote", но при этом он, похоже, попытался разобраться в остальной части файла .eml, обернув различные биты в другие элементы, иразрушение формата.
Итак, мне нужно найти способ вырезать из файла, который не является чистым XML, но содержит много допустимого XML, каждый экземпляр определенного класса div и его дочерних элементов, не касаясьпростой текст.Весь раздел, с которым я хочу работать, это действительный XML (или, достаточно близко для BeautifulSoup с нечетными кавычками в атрибутах).
Я знаю, что мне также придется вырезать ответ в теле, ноэто достаточно просто.