Я хотел бы извлечь подписи электронной почты из фрейма данных Pandas с одним столбцом, где каждая строка содержит дискретное сообщение электронной почты в виде строки.Некоторые электронные письма в кодировке HTML, а некоторые нет.Они могут быть любого провайдера электронной почты (например, Gmail, Microsoft, Yahoo и т. Д.).
Я знаю, что подписи Gmail содержатся в div, где class="email_signature"
, что упрощает их синтаксический анализ.Моя дилемма заключается в следующем: каков наилучший способ извлечения подписей, не относящихся к электронной почте?Есть ли регулярное выражение, которое захватывает содержание электронной почты?Как я могу применить это регулярное выражение к фрейму данных Pandas в Python?
Я приведу пример, но данные являются частными и, честно говоря, я не думаю, что это необходимо для этого вопроса.