У меня есть приложение для поиска веб-страниц на Java, которому требуется доступ ко всем ссылкам на веб-странице.Проблема в том, что на некоторых страницах ссылки генерируются функцией javascript.Что-то вроде:
<a href="someJavascriptFunction()"> Lorem Ipsum </a>
Мне известно о HtmlUnit .Но в моих тестах это было слишком медленно для моих целей.Локальная страница (в http://localhost/test.html) заняла почти 2 секунды для извлечения. Другие удаленные веб-страницы заняли гораздо больше времени.
Я бы хотел самый простой / быстрый способ найти все ссылки на веб-страницедаже javascript в Java. (Решения в C / C ++ приветствуются). Я также знаю, что Nutch (сканер) имеет экстрактор ссылок из Javascript, но я не уверен, что этокод может быть «извлечен» из Nutch для использования в другом контексте.