Извлечение веб-страниц со ссылками на JavaScript из Java - PullRequest
0 голосов
/ 09 ноября 2010

У меня есть приложение для поиска веб-страниц на Java, которому требуется доступ ко всем ссылкам на веб-странице.Проблема в том, что на некоторых страницах ссылки генерируются функцией javascript.Что-то вроде:

<a href="someJavascriptFunction()"> Lorem Ipsum </a>

Мне известно о HtmlUnit .Но в моих тестах это было слишком медленно для моих целей.Локальная страница (в http://localhost/test.html) заняла почти 2 секунды для извлечения. Другие удаленные веб-страницы заняли гораздо больше времени.

Я бы хотел самый простой / быстрый способ найти все ссылки на веб-страницедаже javascript в Java. (Решения в C / C ++ приветствуются). Я также знаю, что Nutch (сканер) имеет экстрактор ссылок из Javascript, но я не уверен, что этокод может быть «извлечен» из Nutch для использования в другом контексте.

1 Ответ

0 голосов
/ 09 ноября 2010

Кажется возможным извлечь полезный код из Nutch:

Посмотрите, как основной метод может использоваться в качестве автономного экстрактора ссылок JS.

...