Я пытаюсь найти дату публикации газетных статей, опубликованных в Интернете с использованием Python, но каждый веб-сайт использует свой собственный уникальный стиль для HTML, и время публикации в мета-странице не одинаково для разных доменов.
Я пытался использовать пакет dateparser, но он включает систему относительных дат, которая неправильно считывает некоторые слова (например, строку: «день») как относительные времена.
Существует ли хороший список регулярных выражений, о которых кто-то знает / может поделиться, который включает как можно больше способов форматирования отметки времени, включая поддержку чтения часовых поясов?