Извлечение дат из метаданных html в FAST-ESP - PullRequest
0 голосов
/ 21 апреля 2010

Во время обработки документа я хочу извлечь все даты из метаданных html, а затем определить самую последнюю дату, которая будет использоваться для заполнения поля даты (dtgeneric1).

<meta name="OriginalPublicationDate" content="2010/04/21 12:06:36" />
<meta name="LastModificationDate" content="2010/04/22 14:10:16" />
+ other non-date meta data

Проверка с использованием этапов шпиона показывает, чтонаш конвейер уже добавляет атрибуты meta_ *, но имена метаданных в документах из разных источников будут разными.

#### ATTRIBUTE meta_originalpublicationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/21 12:06:36
#### ATTRIBUTE meta_lastmodificationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/22 14:10:16
+ other non-date meta attributes

В идеале мы хотели бы передать все атрибуты meta_ * на стадию Python и использовать их для работыиз которых указаны даты и которые являются самыми большими, но, похоже, нет способа указать "все метаатрибуты" в качестве входных данных.

Кто-нибудь делал что-то подобное и может дать какой-нибудь совет относительно наилучшего способа сделать это.

Спасибо

Нил

1 Ответ

0 голосов
/ 09 мая 2010

Я полагаю, что пользовательский этап, который принимает все необходимые атрибуты даты в качестве входных данных, обрабатывает сравнение между всеми ними (чтобы найти самую новую дату) и выводит наиболее актуальное поле, чтобы выполнить работу.

...