in nutch, я ищу способ получить содержимое страницы как есть (со строками, новыми строками и абзацами).
следующий код не помогает, потому что он удаляет весь формат страницы.
Parse parse = parseResult.get(content.getUrl());
parse.getText()
даже
BufferedReader br = new BufferedReader(new InputStreamReader(new
ByteArrayInputStream(content.getContent())));
while (br.readLine() != null)
LOG.info("After br: " +br.readLine());
не является решением, так как возвращает содержимое, отформатированное, но с тегами html.
Я действительно хочу, чтобы он был в исходном формате, чтобы можно было отправлять его в метод, который будет извлекать необходимое содержимое.
Спасибо