Разбор HTML веб-страниц в Java - PullRequest
4 голосов
/ 14 июля 2011

Мне нужно проанализировать / прочитать много HTML-страниц (более 100) для определенного контента (несколько строк текста, которые почти одинаковы).

Я использовал объекты сканера с рег. выражения и jsoup с его html-парсером.

Оба метода работают медленно и с помощью jsoup я получаю следующую ошибку: java.net.SocketTimeoutException: тайм-аут чтения (несколько компьютеров с разными подключениями)

Есть что-нибудь лучше?

EDIT:

Теперь, когда я получил jsoup на работу, я думаю, что лучший вопрос - как мне это ускорить?

Ответы [ 3 ]

5 голосов
/ 14 июля 2011

Вы пытались увеличить время ожидания на JSoup? Я полагаю, что по умолчанию всего 3 секунды. Смотрите, например это .

2 голосов
/ 14 июля 2011

Я предложу Nutch , решение для веб-поиска с открытым исходным кодом, включающее поддержку парсинга HTML. Это очень зрелая библиотека. Он использует Lucene под капотом, и я считаю, что это очень надежный гусеничный ход.

0 голосов
/ 14 июля 2011

Отличным навыком для изучения был бы xpath.Это было бы идеально для этой работы!Я только начал изучать это сам для автоматизации тестирования.Если у вас есть вопросы, напишите мне сообщение.Я был бы рад помочь вам, хотя я не эксперт.

Вот хорошая ссылка, так как вы интересуетесь Java: http://www.ibm.com/developerworks/library/x-javaxpathapi/index.html

xpath также хорошзнать, когда вы не используете Java, поэтому я бы выбрал этот маршрут.

...