Не удается сканировать данные RDF с помощью Apache Nutch - PullRequest
0 голосов
/ 25 сентября 2019

Я пытаюсь сканировать DBpedia с Apache Nutch 1.15, но у меня возникают проблемы с анализом RDF-файлов.

На этапе синтаксического анализа я получаю только это сообщение:

** apache_nutch |Ошибка синтаксического анализа: http://dbpedia.org/data/Moscow.xml: не удалось (2,0): не удается получить анализатор Tika для приложения MIME-типа / rdf + xml **

после этой ссылки , iнастроил мой parse-plugins.xml для разбора application / rdf + xml следующим образом:

<mimeType name="application/rdf+xml">
    <plugin id="parse-tika" />
    <plugin id="feed" />
</mimeType>

Но, тем не менее, сообщение сохраняется.

Даже когда я использую Any23, отображение фильтра разбора как

<alias name="any23-parserFilter"
        extension-id="Any23Parser" />

и установка синтаксических анализаторов для типа MIME:

<mimeType name="application/rdf+xml">
    <plugin id="parse-tika" />
    <plugin id="feed" />
</mimeType>

Сообщение все еще сохраняется.

Чего мне здесь не хватает?

...