Во время обработки документа я хочу извлечь все даты из метаданных html, а затем определить самую последнюю дату, которая будет использоваться для заполнения поля даты (dtgeneric1).
<meta name="OriginalPublicationDate" content="2010/04/21 12:06:36" />
<meta name="LastModificationDate" content="2010/04/22 14:10:16" />
+ other non-date meta data
Проверка с использованием этапов шпиона показывает, чтонаш конвейер уже добавляет атрибуты meta_ *, но имена метаданных в документах из разных источников будут разными.
#### ATTRIBUTE meta_originalpublicationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/21 12:06:36
#### ATTRIBUTE meta_lastmodificationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/22 14:10:16
+ other non-date meta attributes
В идеале мы хотели бы передать все атрибуты meta_ * на стадию Python и использовать их для работыиз которых указаны даты и которые являются самыми большими, но, похоже, нет способа указать "все метаатрибуты" в качестве входных данных.
Кто-нибудь делал что-то подобное и может дать какой-нибудь совет относительно наилучшего способа сделать это.
Спасибо
Нил