Question

in nutch, я ищу способ получить содержимое страницы как есть (со строками, новыми строками и абзацами).

следующий код не помогает, потому что он удаляет весь формат страницы.

Parse parse = parseResult.get(content.getUrl());    
parse.getText()

даже

BufferedReader br = new BufferedReader(new InputStreamReader(new   
ByteArrayInputStream(content.getContent())));
while (br.readLine() != null) 
LOG.info("After br: " +br.readLine());

не является решением, так как возвращает содержимое, отформатированное, но с тегами html.

Я действительно хочу, чтобы он был в исходном формате, чтобы можно было отправлять его в метод, который будет извлекать необходимое содержимое.

Спасибо

Tejas Patil · Answer 1 · 03 апреля 2012

Нет прямого способа сделать это.

Изучите и измените src\java\org\apache\nutch\segment\ContentAsTextInputFormat.java в соответствии с вашими потребностями.

получить содержимое страницы в формате NUTCH

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

получить содержимое страницы в формате NUTCH

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы