Nutch - разобрать пользовательские элементы HTML - PullRequest
0 голосов
/ 24 ноября 2018

Я пытаюсь сканировать и индексировать (с помощью Solr) определенные части страниц, которые я сканирую.

Пока что со всеми настройками по умолчанию я сканирую и индексирую нужные мне страницы, нов Solr у меня есть только 2 поля, заголовок и содержимое, которое содержит текст моих страниц, но это не совсем тот текст, который я хочу.

То, чего я хочу добиться, - это создать новое поле с содержимымконкретный div.

<div class="myDiv"> Content I want to index </div>

На данный момент я обнаружил плагин Extractor , который, похоже, и является тем, что я хочу.

После следованияинструкции я не могу разобрать данные, так как я получаю следующую ошибку, и я не понимаю, в чем дело.

Я использую Nutch 1.15

java.lang.Exception: java.lang.LinkageError: loader constraint violation: when resolving method "org.slf4j.impl.StaticLoggerBinder.getLoggerFactory()Lorg/slf4j/ILoggerFactory;" the class loader (instance of org/apache/nutch/plugin/PluginClassLoader) of the current class, org/slf4j/LoggerFactory, and the class loader (instance of sun/misc/Launcher$AppClassLoader) for the method's defining class, org/slf4j/impl/StaticLoggerBinder, have different Class objects for the type org/slf4j/ILoggerFactory used in the signature
    at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:462)
    at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:522)

1 Ответ

0 голосов
/ 24 ноября 2018

Похоже, что использованный slf4j-api был старой версией, не совпадающей с той, которую использует Nutch.По крайней мере, это то, что я понял.

Чтобы решить проблему, я просто закомментировал библиотеку в /plugins/extractor/plugin.xml

Удалить эту строку: <library name="slf4j-api-1.7.5.jar"/>

...