Я хочу извлечь даты из разных форматов из веб-страниц. Я использую Selenium2 Java API для взаимодействия с браузером. Также я использую jQuery для дальнейшего взаимодействия с документом. Итак, решения для обоих слоев приветствуются.
Даты могут иметь очень разные форматы в разных локалях. Кроме того, названия месяцев могут быть написаны как текст или как число. Мне нужно сопоставить как можно больше дат, и я осознаю тот факт, что существует много комбинаций.
Например, если у меня есть такой HTML-элемент:
<div class="tag_view">
Last update: May,22,2011
View :40
</div>
Я хочу, чтобы соответствующая часть даты была извлечена и распознана:
May,22,2011
Теперь он должен быть преобразован в обычный объект Java Date.
Обновление
Это должно работать с HTML с любой веб-страницы, дата может содержаться в любом элементе в любом формате. Например, здесь, в Stackoverflow, исходный код выглядит так:
<span class="relativetime" title="2011-05-13 14:45:06Z">May 13 at 14:45</span>
Я хочу, чтобы это было сделано наиболее эффективным способом, и я предполагаю, что это будет селектор или фильтр jQuery, который возвращает стандартизированное представление даты. Но я открыт для ваших предложений.