Обновите старый плагин Nutch, чтобы можно было использовать разбор Xpath в Nutch 2.3.1 - PullRequest
0 голосов
/ 13 сентября 2018

Я работаю над проектом с Apache Nutch 2.3.1, и мне нужно иметь возможность извлекать конкретные данные из загруженных HTML-страниц.Я нашел плагин (parse-xml NUTCH-185), который помог бы мне в этом, но некоторые из используемых им библиотек больше не существуют или устарели, и я собираюсь внести необходимые изменения, чтобы сделать его совместимым с Nutch 2.3.1 Библиотеки, которые дают мне ошибку в компиляции Nutch, это, не могли бы вы помочь найти эквиваленты для Nutch 2.3.1?

import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.nutch.crawl.CrawlDatum;
import org.apache.nutch.crawl.Inlinks;
import org.apache.nutch.parse.ParseData;

1 Ответ

0 голосов
/ 13 сентября 2018

Nutch 2.3.1 не является следующей версией Nutch 1.x. Nutch имеет в любой момент 2 основных "ветви": Nutch 1.x / master / багажник и Nutch 2.x. Nutch 2.x очень отличается от своего брата. У них много дизайнерских идей, но с разными реализациями. Короче говоря, вы не можете найти эти классы, потому что они не существуют в Nutch 2.x.

org.apache.lucene.* не реализованы в Nutch, но используются непосредственно из библиотеки Apache Lucene.

Nutch 2.x имеет совершенно другую архитектуру по сравнению с Nutch 1.x. Это означает, что обновление для этого плагина касается не только замены этих импортов. Вам нужно будет адаптировать код для новой архитектуры. Хотя основная логика плагина должна быть примерно одинаковой.

...