Я тестировал небольшое написанное мной приложение, которое в основном выполняет запрос HTTP HEAD, чтобы проверить, существует ли страница, перенаправляет ли я и т. Д. Я заметил, что некоторые страницы реагируют на HEAD иначе, чем запросы GET. Например:
curl -I http://www.youtube.com/bbcpersian
возвращает 404. Это определенно есть. Некоторые (довольно крупные) сайты даже возвращают 500 ошибок в ответ на HEAD - что, я полагаю, не является преднамеренным.
Итак, мои вопросы:
- Есть ли какая-либо веская причина, по которой некоторые сайты (или страницы внутри сайтов) будут вести себя так же, кроме проблем конфигурации или веб-мастера, желающего заблокировать ботов?
- Если я не могу полагаться на запрос HEAD, я просто остаюсь с выполнением GET и отменой запроса, когда у меня есть заголовки. Это немного "неправильно" ...
Несмотря на то, что число страниц, которые ведут себя так, невелико в%, каждый ложноположительный результат в конечном итоге исследуется вручную, что приводит к большим потерям усилий.