У меня есть скрипт, который анализирует поля в заголовках писем, которые представляют даты и время.Вот некоторые примеры этих строк:
Fri, 10 Jun 2011 11:04:17 +0200 (CEST)
Tue, 1 Jun 2011 11:04:17 +0200
Wed, 8 Jul 1992 4:23:11 -0200
Wed, 8 Jul 1992 4:23:11 -0200 EST
До того, как я столкнулся с частями CEST / EST на концах некоторых строк, у меня все работало довольно хорошо, просто используя datetime.datetime.strptime
, например так:
msg['date'] = 'Wed, 8 Jul 1992 4:23:11 -0200'
mail_date = datetime.datetime.strptime(msg['date'][:-6], '%a, %d %b %Y %H:%M:%S')
Я пытался соединить регулярное выражение, чтобы соответствовать частям строки в строке, исключая информацию о часовом поясе в конце, но у меня были проблемы с регулярным выражением (я не смог сопоставить двоеточие).
Является ли использование регулярных выражений лучшим способом для анализа всех приведенных выше примеров?Если да, может ли кто-нибудь поделиться регулярным выражением, которое будет соответствовать этим примерам?В конце я ищу объект datetime.