Независимо от формата блога или его языка можно с уверенностью предположить, что формат даты для каждого блога остается неизменным на протяжении всего блога.Я бы построил различные регулярные выражения для всех типов дат, о которых я могу думать:
- дд / мм / гг
- дд-мм-гг
- Месяц дд,гггг
- гггг.мм.дд
И так далее ... и поищите их всех.Если на странице найдено совпадение с одним из них, установите максимальную дату на главной странице, которая обычно будет соответствовать времени последнего обновления блога.
Если для определенных сайтов совпадение вообще отсутствуетлюбой формат, который вы можете придумать, посмотрите, какой формат использует этот сайт, добавьте этот формат и с другим регулярным выражением и повторите.
Кроме того, вы можете использовать регулярное выражение только для чисел 2018 или 18, если онибольше нигде не найти, сайт, вероятно, последний раз обновлялся в 2017 году (но это, конечно, верно только сейчас, и логика потерпит неудачу, если вы только начинаете 2019 год и т. д.)
Извинитеза то, что вы не возились с примерами кода, но вы этого не сделали :) Это просто основной алгоритм, который я бы использовал и улучшил.Вы можете проверить примеры регулярных выражений даты здесь: Регулярное выражение для сопоставления с действительными датами
Вы также можете использовать некоторые ответы здесь: Проверьте, есть ли в строке дата, любой формат