Сканирование сайта с динамическими страницами - PullRequest
1 голос
/ 08 декабря 2010

Мне нужно сканировать веб-сайты и извлекать некоторую информацию из динамически создаваемых страниц после отправки формы.

Информация, которую мне нужно сканировать, в основном поступает из баз данных на этих сайтах.

Добавлено:

Сканеры обычно работают, перепрыгивая с одной гиперссылки на другую.Так что это в основном статические страницы.Как насчет сканирования страниц, которые статически не присутствуют, но создаются на лету.

1 Ответ

1 голос
/ 11 января 2011

С точки зрения гусеницы, нет большой разницы. Вы все еще получаете заформатированный HTML.

Единственное, с чем вам нужно быть осторожным, это ссылки, ведущие к бесконечному количеству страниц, например, динамически генерируемый календарь с ссылками на следующий / предыдущий месяц / год.

...