Я привык создавать некоторые сканеры для компиляции информации, и когда я захожу на веб-сайт, мне нужна информация, я запускаю новый сканер, специфичный для этого сайта, большую часть времени используя сценарии оболочки и иногда PHP.
Я делаю это с помощью простой for
для итерации списка страниц, wget
загрузите его и sed
, tr
, awk
или других утилит для очистки страницы и захвата конкретная информация мне нужна.
Весь процесс занимает некоторое время в зависимости от сайта и больше, чтобы загрузить все страницы. И я часто захожу на сайт AJAX, который все усложняет
Мне было интересно, есть ли лучшие способы сделать это, более быстрые способы или даже некоторые приложения или языки, чтобы помочь такой работе.