получить содержимое страницы в формате NUTCH - PullRequest
0 голосов
/ 30 января 2012

in nutch, я ищу способ получить содержимое страницы как есть (со строками, новыми строками и абзацами).

следующий код не помогает, потому что он удаляет весь формат страницы.

Parse parse = parseResult.get(content.getUrl());    
parse.getText()

даже

BufferedReader br = new BufferedReader(new InputStreamReader(new   
ByteArrayInputStream(content.getContent())));
while (br.readLine() != null) 
LOG.info("After br: " +br.readLine());

не является решением, так как возвращает содержимое, отформатированное, но с тегами html.

Я действительно хочу, чтобы он был в исходном формате, чтобы можно было отправлять его в метод, который будет извлекать необходимое содержимое.

Спасибо

1 Ответ

0 голосов
/ 03 апреля 2012

Нет прямого способа сделать это.

Изучите и измените src\java\org\apache\nutch\segment\ContentAsTextInputFormat.java в соответствии с вашими потребностями.

...