Замена для Jaxer для разбора / сканирования сайтов - PullRequest
0 голосов
/ 21 февраля 2012

У меня есть старый инструмент, который (бывший) коллега написал несколько лет назад с Jaxer, который я хотел бы заменить / переписать.

Jaxer - это (заброшенный) серверный фреймворк, основанный на безголовом браузере Mozilla / Gecko, который позволяет вам использовать JavaScript и серверную часть DOM.

Поскольку Jaxer заброшен и у меня большие проблемы с установкой и запуском Aptana Studio 1.5 с Jaxer на новом компьютере, я ищу библиотеку / framework / что-то, на чем я мог бы основать новую версию.

Этот инструмент запускается только локально внутри Aptana Studio (IDE для Jaxer) и никогда не предназначался для использования в качестве реального веб-приложения. Он сканирует сайты наших клиентов, загружая их страницу за страницей в серверную часть Mozilla. Для этого он использует jQuery и предопределенные селекторы CSS, чтобы найти ссылки в меню и проанализировать другую информацию со страниц. Окончательный результат - в основном прославленная карта сайта.

Я бы хотел сохранить этот modus operandi, если это возможно, и продолжать использовать jQuery / JavaScript / DOM для загрузки и анализа / доступа к страницам, но его можно заключить в каркас, основанный на другом языке, таком как Java. Я сам решил написать что-нибудь на основе Gecko, но это кажется слишком сложным, так что я открыт для других предложений.

1 Ответ

1 голос
/ 21 февраля 2012

Что касается сканирования / разбора HTML: http://ccil.org/~cowan/XML/tagsoup/

или

http://jsoup.org/

...