Поиск всех отметок времени на странице с помощью регулярных выражений - PullRequest
0 голосов
/ 03 июля 2018

Я пытаюсь найти дату публикации газетных статей, опубликованных в Интернете с использованием Python, но каждый веб-сайт использует свой собственный уникальный стиль для HTML, и время публикации в мета-странице не одинаково для разных доменов.

Я пытался использовать пакет dateparser, но он включает систему относительных дат, которая неправильно считывает некоторые слова (например, строку: «день») как относительные времена.

Существует ли хороший список регулярных выражений, о которых кто-то знает / может поделиться, который включает как можно больше способов форматирования отметки времени, включая поддержку чтения часовых поясов?

1 Ответ

0 голосов
/ 03 июля 2018

В общем, нет - эта задача невозможна, потому что люди определяют контекст, который вы, вероятно, не принимаете во внимание.

Подумайте, не встретился ли в вашем коде строка типа 01/05/13. Какая дата это? Это 5 января 2013? А может это 1 мая 2013 года? Или 13 мая 1801 года? Человек-читатель может понять контекст локализации и столетие публикации, но если вы не предоставите их отдельно - компьютерный код не поможет.

Аналогично, подумайте, не встретился ли в вашем коде строка типа 3.14. Это 14 марта? Или это приближение для математического символа π? Без контекста понимания окружающего текста невозможно узнать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...