Как я могу изменить порядок файлов mbox в хронологическом порядке? - PullRequest
3 голосов
/ 15 декабря 2008

У меня есть один файл спулинга mbox, созданный с помощью evolution, содержащий подборку писем, которые я хочу распечатать. Моя проблема в том, что электронные письма не помещаются в файл mbox в хронологическом порядке. Я хотел бы знать, как лучше разместить файлы с первого по последний, используя bash, perl или python. Я хотел бы получить заказ на файлы, адресованные мне, и отправить файлы, отправленные мной. Возможно, будет проще использовать файлы maildir или что-то подобное?

В настоящее время электронные письма существуют в формате:

From x@blah.com Fri Aug 12 09:34:09 2005
Message-ID: <42FBEE81.9090701@blah.com>
Date: Fri, 12 Aug 2005 09:34:09 +0900
From: me <x@blah.com>
User-Agent: Mozilla Thunderbird 1.0.6 (Windows/20050716)
X-Accept-Language: en-us, en
MIME-Version: 1.0
To: someone <someone@hotmail.com>
Subject: Re: (no subject)
References: <BAY101-F9353854000A4758A7E2CCA9BD0@phx.gbl>
In-Reply-To: <BAY101-F9353854000A4758A7E2CCA9BD0@phx.gbl>
Content-Type: text/plain; charset=ISO-8859-1; format=flowed
Content-Transfer-Encoding: 8bit
Status: RO
X-Status: 
X-Keywords:                 
X-UID: 371
X-Evolution-Source: imap://x+blah.com@blah.com/
X-Evolution: 00000002-0010

Hey

the actual content of the email

someone wrote:

> lines of quotedtext

Мне интересно, есть ли способ использовать эту информацию для простой реорганизации файла, возможно, с помощью perl или чего-то подобного.

Ответы [ 3 ]

10 голосов
/ 15 декабря 2008

Вот как вы можете сделать это в Python:

#!/usr/bin/python2.5
from email.utils import parsedate
import mailbox

def extract_date(email):
    date = email.get('Date')
    return parsedate(date)

the_mailbox = mailbox.mbox('/path/to/mbox')
sorted_mails = sorted(the_mailbox, key=extract_date)
the_mailbox.update(enumerate(sorted_mails))
the_mailbox.flush()
1 голос
/ 01 мая 2010

Решение Python не будет работать, если почтовые сообщения были импортированы в mbox с помощью дополнения Thunderbird ImportExportTools. Есть ошибка: сообщения должны начинаться с префикса 'from' в формате:

From - Tue Apr 27 19:42:22 2010

но префикс ImportExportTools с такой строкой «из»:

From - Sat May 01 2010 15:07:31 GMT+0400 (Russian Daylight Time)

Итак, есть две ошибки:

  1. последовательность 'время года', разбитая на 'время года'
  2. дополнительный мусор с GMT информация вместе с названием часового пояса

Поскольку Python mailbox.py/UnixMailbox имеет жестко заданное регулярное выражение для соответствия строк из строки, некоторые сообщения не могут быть проанализированы.

Я написал автору сообщение об ошибке, но есть много ошибочно импортированных сообщений: (.

0 голосов
/ 15 декабря 2008

Какой смысл переписывать mbox, тогда как вы можете переупорядочивать почту в памяти при загрузке почтового ящика? В какое время вы хотите заказать? Получить дату? Дата отправки? В любом случае, все модули Ruby / Python / Perl для игры с mbox могут это делать.

...