Метаданные PDF отсутствуют в необработанных свойствах при загрузке на Alfresco - PullRequest
0 голосов
/ 20 ноября 2018

У меня проблемы с настройкой экстрактора пользовательских метаданных в сообществе Alfresco 5.2.Я прочитал документацию .Это то, что я сделал до сих пор:

Сначала я создал новую модель, содержащую пользовательский тип с нужными мне полями (например, DOI, volume, issn), и создал правило впапка, так что любой документ, добавленный в эту папку, будет специализированным для этого типа.

Затем мне нужно было создать новое отображение, но для этого сначала мне нужно было узнать имена свойств в соответствии с Alfresco.Для этого я изменил log4j.properties так, чтобы log4j.logger.org.alfresco.repo.content.metadata.AbstractMappingMetadataExtracter = debug.После этого, после загрузки документа, который содержит необходимые метаданные, я мог проверить имена свойств, которые я должен использовать в отображении.

Здесь я нашел свою проблему.В файле журнала Alfresco, , когда я загружаю один из этих документов, не все метаданные, доступные в PDF, отображаются как необработанное свойство .Например:

Документ PDF содержит следующие метаданные XMP (это просто отрывок, в нем много других полей):

<prism:url>https://doi.org/10.1007/s11192-018-2820-9</prism:url>
<prism:doi>10.1007/s11192-018-2820-9</prism:doi>
<prism:issn>1588-2861</prism:issn>
<prism:volume>116</prism:volume>
<prism:number>3</prism:number>
<prism:startingPage>2175</prism:startingPage>
<prism:endingPage>2188</prism:endingPage>
<prism:aggregationType>journal</prism:aggregationType>
<prism:publicationName>Scientometrics</prism:publicationName>
<prism:copyright>Akadémiai Kiadó, Budapest, Hungary</prism:copyright>
<pdfx:CrossmarkMajorVersionDate>2010-04-23</pdfx:CrossmarkMajorVersionDate>
<pdfx:CrossmarkDomainExclusive>true</pdfx:CrossmarkDomainExclusive>
<pdfx:doi>10.1007/s11192-018-2820-9</pdfx:doi>
<pdfx:robots>noindex</pdfx:robots>
<pdfx:CrossMarkDomains>

Однако, когда я загружаю его на Alfresco,В файле журнала отображаются эти необработанные свойства

Необработанные свойства: {date = 2018-08-13T08: 56: 21Z, pdf: PDFVersion = 1.6, xmp: CreatorTool = Springer, Ключевые слова = цитируемые документы,Google Scholar, Web of Science, Scopus, Освещение, Академические журналы, Классические документы, тема = Наукометрия, https://doi.org/10.1007/s11192-018-2820-9, pdfa: PDFVersion = A-2b, dc: creator = Энрике Ордуна-Малеа, Эмилио Дельгадо Лопес-Козар,Альберто Мартин-Мартин, описание = наукометрия, https://doi.org/10.1007/s11192-018-2820-9, dcterms: создано = 2018-06-26T11: 18: 02Z, последняя модификация = 2018-08-13T08: 56: 21Z, dcterms: изменено = 2018-08-13T08: 56: 21Z, dc: format = application / pdf;версия = 1.6, приложение / pdf;version = "A-2b", title = Освещение цитируемых документов в Google Scholar, Web of Science и Scopus: междисциплинарное сравнение, Last-Save-Date = 2018-08-13T08: 56: 21Z, CrossMarkDomains 1 = springer.com, meta: save-date = 2018-08-13T08: 56: 21Z, dc: title = Освещение цитируемых документов в Google Scholar, Web of Science и Scopus: междисциплинарное сравнение, pdf: зашифрованный = false, измененный = 2018-08-13T08: 56: 21Z, cp: subject = наукометрия, https://doi.org/10.1007/s11192-018-2820-9, роботы = noindex, Content-Type = application / pdf, TIKA_PARSER_PARSE_SHAPES = false, создатель = EnriqueОрдуна-Малеа, Эмилио Дельгадо Лопес-Козар, Альберто Мартин-Мартин, pdfaid: соответствие = B, комментарии = ноль, мета: author = Энрике Ордуна-Малеа, Эмилио Дельгадо Лопес-Козар, Альберто Мартин-Мартин, округ Колумбия [тема: =Ljava.lang.String; @ 91aba4, meta: дата создания = 2018-06-26T11: 18: 02Z, создано = 2018-06-26T11: 18: 02Z, автор = Энрике Ордуна-Малеа, Эмилио Дельгадо Лопес-Козар,Альберто Мартин-Мартин, xmpTPg: NPages = 14, Дата создания = 2018-06-26T11: 18: 02Z, pdfaid: part = 2, CrossMarkDomains [2] = springerlink.com, meta: ключевое слово = высоко цитируемые документы, Google Scholar, Web of Science, Scopus, Coverage, академические журналы, классические документы, Author = EnriqueОрдуна-Малеа, Эмилио Дельгадо Лопес-Козар, Альберто Мартин-Мартин, продюсер = Acrobat Distiller 10.1.8 (Windows), CrossmarkDomainExclusive = true, CrossmarkMajorVersionDate = 2010-04-23, doi = 10.1007 / s11192-018-2820-9}

Как видите, свойства, связанные с пространством имен pdfx, импортируются, но свойства, связанные с призменной моделью, отсутствуют.

Поэтому мой главный вопрос: почему Alfresco не обнаруживает все доступные метаданные в PDF как необработанные свойства?

Несмотря на то, что некоторые свойства не были обнаружены, я все равно попытался настроить оставшуюся часть экстрактора пользовательских метаданных.Конечно, это означало, что, поскольку некоторые нужные мне свойства не были обнаружены, мне пришлось угадывать их имена.

Я настроил следующее пользовательское сопоставление:

<bean id="extracter.PDFBox" class="org.alfresco.repo.content.metadata.PdfBoxMetadataExtracter"
parent="baseMetadataExtracter">
<property name="documentSelector" ref="pdfBoxEmbededDocumentSelector" />
<property name="inheritDefaultMapping">
<value>true</value>
</property>
<property name="mappingProperties">
<props>
<prop key="namespace.prefix.prism">http://prismstandard.org/namespaces/basic/2.0</prop>
<prop key="doi">prism:doi</prop>
<prop key="prism:volume">prism:volume</prop>
<prop key="issn">prism:issn</prop>
</props>
</property>
</bean>

После настройкипосле этого я перезапустил Alfresco и попытался загрузить документ с этими метаданными.

Поскольку свойство «doi» было доступно в необработанных свойствах (это было одно из полей пространства имен pdfx), DOI был успешноимпортирован.Однако, как я и опасался, поля ISSN и тома не были заполнены.

Есть какие-нибудь идеи относительно того, почему некоторые метаданные из PDF не обнаруживаются экстрактором PDF Alfresco?

Большое спасибоЗа вашу помощь заранее.

...