Как определить, является ли страница доменной страницей - PullRequest
0 голосов
/ 13 октября 2011

Есть ли способ определить, является ли страница в Интернете промежуточной страницей?Это связано с тем, что мне нужно определить, недоступна ли какая-либо из страниц, полученных с помощью скручивания, из-за истечения срока действия домена, как часть моей обработки ошибок.

Я подумал, что в этом случае будет предоставлен отдельный код HTTP, но вместо этого ядали 200 OK, что усложнило ситуацию.

Является ли единственный способ поиска определенных фраз с помощью strpos () в PHP?

Любая помощь будет оценена!

Ответы [ 3 ]

3 голосов
/ 13 октября 2011

Нет надежного способа сделать это.Существуют сотни различных «страниц, содержащих домен», и для них нет ничего стандартного.

В конце концов, страница, содержащая домен, - это просто веб-страница, которая обслуживается как любая другая,они предназначены только для чтения человеком.Некоторые хосты вообще не будут его использовать.

Если вы когда-либо получите страницу, содержащую домен, код состояния будет , вероятно , быть кодом 2xx, но, возможно, нет.Некоторые хосты могут использовать код 5xx.Опять же, нет никакого реального способа узнать.

2 голосов
/ 13 октября 2011

Является ли единственный способ поиска определенных фраз с помощью strpos () в PHP?

Да. Ничто не отличает страницу, содержащую домен, от обычного веб-сайта.

Вы можете искать

  • Некоторые ключевые слова («На продажу», «Зарезервировано для клиента» ....)
  • Определенные структуры страниц (многие домены, принадлежащие одной и той же компании, имеют одинаковую базовую структуру страниц удержания, например, страница «белокурая женщина, парковающая домены»)

Вероятно, будет невозможно достичь 100% надежности.

1 голос
/ 13 октября 2011

Есть ли способ определить, является ли страница в Интернете удерживающей страницей?

Технически, удерживающая страница - это просто страница.Итак, вы технически ищете страницу.Но потом?Можете ли вы дать какие-то конкретные параметры, что такое удерживающая страница?Это трудно сделать.

Так что, возможно, это поможет перевернуть вопрос:

Есть ли способ определить, является ли страница в Интернете не aудержание страницы?

Если вам легче ответить на этот вопрос, возможно, вы нашли способ.Если нет, то рядом с тем, что уже ответили:

  • Страницы хранения часто выглядят одинаково, имеют одинаковую структуру.Вы можете использовать статистику и определять для всех страниц, какие из этих страниц похожи.
  • У удерживающих страниц могут быть одинаковые удаленные IP-адреса.

Но, в частности, еслинельзя определить конкретные характеристики удерживающей страницы, вы не можете решить, является ли одна страница программной.

...