Я работаю над проектом с Apache Nutch 2.3.1, и мне нужно иметь возможность извлекать конкретные данные из загруженных HTML-страниц.Я нашел плагин (parse-xml NUTCH-185), который помог бы мне в этом, но некоторые из используемых им библиотек больше не существуют или устарели, и я собираюсь внести необходимые изменения, чтобы сделать его совместимым с Nutch 2.3.1 Библиотеки, которые дают мне ошибку в компиляции Nutch, это, не могли бы вы помочь найти эквиваленты для Nutch 2.3.1?
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.nutch.crawl.CrawlDatum;
import org.apache.nutch.crawl.Inlinks;
import org.apache.nutch.parse.ParseData;