Мне было дано задание сканировать / анализировать и индексировать доступные книги на многих страницах библиотеки. Я обычно использую HTML Agility Pack и C # для анализа содержимого веб-сайта. Одним из них является следующее:
http://bibliotek.kristianstad.se/pls/bookit/pkg_www_misc.print_index?in_language_id=en_GB
Если вы ищете * (все книги), он вернет множество списков книг, разбитых на страницы по 10 книг на странице.
Типичные сканеры, которые я обнаружил, не работают на этом сайте. Я также попытался написать свой собственный сканер, который бы просматривал все ссылки на странице и генерировал переменные post / get для динамического генерирования результатов. Я также не смог этого сделать, в основном из-за 404 ошибок, которые я получаю (хотя я уверен, что сгенерированные ссылки верны).
Сайт использует javascript для генерации контента и использует смешанный режим отправки переменных GET и POST.