Я пытаюсь сканировать DBpedia с Apache Nutch 1.15, но у меня возникают проблемы с анализом RDF-файлов.
На этапе синтаксического анализа я получаю только это сообщение:
** apache_nutch |Ошибка синтаксического анализа: http://dbpedia.org/data/Moscow.xml: не удалось (2,0): не удается получить анализатор Tika для приложения MIME-типа / rdf + xml **
после этой ссылки , iнастроил мой parse-plugins.xml для разбора application / rdf + xml следующим образом:
<mimeType name="application/rdf+xml">
<plugin id="parse-tika" />
<plugin id="feed" />
</mimeType>
Но, тем не менее, сообщение сохраняется.
Даже когда я использую Any23, отображение фильтра разбора как
<alias name="any23-parserFilter"
extension-id="Any23Parser" />
и установка синтаксических анализаторов для типа MIME:
<mimeType name="application/rdf+xml">
<plugin id="parse-tika" />
<plugin id="feed" />
</mimeType>
Сообщение все еще сохраняется.
Чего мне здесь не хватает?