В сущности, я реализую плагин, который будет получать содержимое веб-страниц и обрабатывать их особым образом.
Моя основная проблема в том, что я хочу преобразовать веб-страницы в обычный текст, чтобы их можно было обрабатывать. Я читал, что тика инструментарий может это сделать
Итак, я нашел этот код, который использует тика для анализа URL, я пишу его под методом фильтра
public ParseResult filter(Content content, ParseResult parseResult, HTMLMetaTags metaTags, DocumentFragment doc)
{
byte[] raw = content.getContent();
ContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
Parser parser = new AutoDetectParser();
parser.parse(new ByteArrayInputStream(raw), handler, metadata, new ParseContext());
String plainText = handler.toString();
LOG.info("Mime: " + metadata.get(Metadata.CONTENT_TYPE));
LOG.info("content: " + handler.toString());
}
Результат metadata.get (Metadata.CONTENT_TYPE) является text / html
но handler.toString () пуст!
Обновление:
Также я пытаюсь использовать эту строку после метода парсера
LOG.info ("Status : "+ new ParseStatus().toString());
и я получаю такой результат:
Статус: не обработан (0,0)