Я бы согласился с banzaimonkey, кроме как начать с гусеничного шасси.Работа с журналами веб-сервера предполагает, что к проблемным изображениям, таблицам стилей и т. Д. Обращаются с некоторой регулярностью.Страницы или ссылки, расположенные глубоко на сайте или на редко посещаемых страницах, могут быть легко пропущены.Просматривая страницы, вы должны найти их надежно.
Я ни в коем случае не эксперт, но я работаю над несколько схожей проблемой.Мое решение состояло в том, чтобы использовать Perl и модуль WWW :: Mechanize для сканирования целых сайтов и записи различных аспектов страниц.В моем случае я хотел список плохих ссылок, определенных форм, мультимедийных объектов и еще около пяти других вещей.Мне удалось создать сценарий, чтобы он относился к определенным хостам как к «локальным» (в ряде доменов существует около 80 сайтов).Вы должны быть в состоянии сделать то же самое в обратном порядке, идентифицируя «плохие» ссылки.Это предполагает, что вы проводите тестирование ПОСЛЕ развертывания рабочего сайта.Возможно, вы могли бы сделать какой-то вариант, который позволил бы выполнить проверку перед развертыванием.
Другой альтернативой было бы посмотреть на уже написанный сканер и посмотреть его результаты.Интернет-архив выпустил Heritrix , который сканирует, архивирует и создает отчеты на веб-сайтах.Это, вероятно, немного излишним.Опция, подобная LinkChecker , может быть использована с опцией verbose, тогда вывод выводится для экземпляров имени / IP-адреса сервера разработки.Я уверен, что есть много других вариантов в этом направлении.
Я упоминаю их прежде всего потому, что я думаю, что вы хотите что-то, что автоматизирует процесс больше, чем кто-то проверяет каждую страницу вручную.Эти инструменты могут занять некоторое время, так как они пересекают весь сайт, но они могут дать довольно полную картину.Основными вещами, с которыми я плохо справляюсь, являются javascript и формы.Heritrix фактически обрабатывает некоторые ссылки JavaScript, но все еще не обрабатывает формы.
Тем не менее, WWW :: Mechanize и другие модули могут программно отправлять формы, но им должны быть заданы конкретные значения.В вашем случае, если у вас большая база данных, вам может потребоваться отправить только одно или два значения формы для проверки изображений и т. Д. Не с сервера разработки.С положительной стороны, вы также можете проверить возвращаемый контент, чтобы убедиться, что формы работают правильно.У меня сегодня была проблема с постраничной навигацией - страница показала те же 20 результатов независимо от выбранной страницы.Проверка этого может быть автоматизирована путем тестирования определенных строк в наборах результатов (это входит в область разработки, управляемой тестами).
Еще одна вещь - Heritrix фактически создает архивы.Это основа для WayBack Machine в интернет-архиве.Вы можете получить дополнительное преимущество, если хранение нескольких версий веб-сайтов представляет интерес для вас или вашей организации.