Мне нужно проанализировать / прочитать много HTML-страниц (более 100) для определенного контента (несколько строк текста, которые почти одинаковы).
Я использовал объекты сканера с рег. выражения и jsoup с его html-парсером.
Оба метода работают медленно и с помощью jsoup я получаю следующую ошибку:
java.net.SocketTimeoutException: тайм-аут чтения (несколько компьютеров с разными подключениями)
Есть что-нибудь лучше?
EDIT:
Теперь, когда я получил jsoup на работу, я думаю, что лучший вопрос - как мне это ускорить?