Я пытаюсь проанализировать доменные имена из поля Message-ID электронного письма, которое было загружено из файла, и сравнить его с доменом из поля from, чтобы увидеть, насколько оно соответствует. Затем я сравниваю расстояние, используя nltk.edit_distance()
.
Я использую
re.search('@[\[\]\w+\.]+',mail['Message-ID']).group()[1:]
но одно спам-сообщение имеет следующий
mail2['Message-ID']
'<2011315123.04C6DACE618A7C2763810@\x82\xb1\x82\xea\x82\xa9\x82\xe7\x8c\xa9\x82\xa6\x82\xe9\x82\xbe\x82\xeb\x82\xa4>'
Поэтому, когда я пытаюсь сопоставить, он не возвращает совпадение в group()
Я могу декодировать его в Shift_JIS, но не знаю, что с ним делать.
<2011315123.04C6DACE618A7C2763810@これから見えるだろう>
Я не хочу проверять каждую возможную кодировку символов.
Есть идеи, что мне с этим делать?