Есть ли серверный движок dom, подходящий для сканирования? - PullRequest
1 голос
/ 08 октября 2010

Я нашел проект, jaxer , который встраивает движок JavaScript Firefox на стороне сервера, так что он может очень хорошо анализировать серверную часть HTML.Но этот проект кажется мертвым.Это действительно полезно для сканирования веб-страниц для анализа HTML и извлечения данных.

Есть ли какая-нибудь новая технология, полезная для извлечения информации?

Ответы [ 4 ]

1 голос
/ 08 октября 2010

Еще один интересный способ сделать это - использовать node.js в сочетании с jsdom и node-htmlparser для загрузки страницы и анализа javascript в Это. В настоящий момент он еще не работает из коробки, но Дав Гласс (из Yahoo) успешно запустил YUI в node.js , используя модифицированную версию этого комбо.

Это интересно, если вы решите, что ничего из этого не достаточно хорошо, и хотите реализовать свое собственное. Если так, то это будет отличный проект с открытым исходным кодом.

0 голосов
/ 18 января 2011

ItsNat аналогичен Jaxer, основное отличие - это Java, а не JavaScript.

0 голосов
/ 08 октября 2010

У меня был некоторый успех в написании сканера с поддержкой js на python + pywebkitgtk + javascript. Он намного медленнее, чем традиционный сканер, но он выполняет свою работу и может выполнять такие крутые вещи, как создание скриншотов и сбор контента, который был «скрыт» js инъекцией.

Здесь есть достойная статья с примером кода:

http://blog.motane.lu/2009/06/18/pywebkitgtk-execute-javascript-from-python/

0 голосов
/ 08 октября 2010

В прошлом я использовал Selenium RC для управления веб-браузером (обычно firefox) из кода для загрузки и анализа веб-сайтов с помощью реального веб-браузера.

Самое интересное в этом то, что вы в основном пишете на языке, который вам удобен, будь то Perl, Ruby или C #.Но чтобы полностью использовать возможности Selenium , вам все равно нужно знать и писать javascript.

...