Проверьте дубликаты контента, не делая GET - PullRequest
2 голосов
/ 11 мая 2011

Одна из основных целей нормализации URL-адресов заключается в том, чтобы избежать GET запросов на отдельные URL-адреса, которые дают одинаковый результат.

Теперь я знаю, что вы можете проверить canonical tag и даже сравнитьHTML-код двух URL-адресов, чтобы увидеть, совпадают ли они, однако для этого вам необходимо дважды загрузить один и тот же ресурс, превзойдя пункт, который я изложил ранее.

Есть ли способ проверить наличие дублированного контентаделать только запрос HEAD?Если нет, то есть ли способ загрузить только раздел <head> веб-страницы, не загружая весь документ?

Я могу подумать о решениях для последнего, я просто не хочу знать, есть липрямой.

1 Ответ

1 голос
/ 20 мая 2011

В соответствии с документацией MSDN решение вашего вопроса выглядит следующим образом:

Dim myHttpWebRequest As HttpWebRequest = CType(WebRequest.Create(url), HttpWebRequest)
Dim myHttpWebResponse As HttpWebResponse = CType(myHttpWebRequest.GetResponse(), HttpWebResponse)
Console.WriteLine(ControlChars.Lf + ControlChars.Cr + "The following headers were received in the response")
Dim i As Integer
While i < myHttpWebResponse.Headers.Count
    Console.WriteLine(ControlChars.Cr + "Header Name:{0}, Value :{1}", myHttpWebResponse.Headers.Keys(i), myHttpWebResponse.Headers(i))
    i = i + 1
End While
myHttpWebResponse.Close()

Позвольте мне объяснить этот код. Первая строка Создает запрос HttpWebRequest с указанным URL-адресом, а также второй строкой и третьей строкой. Отображает все имеющиеся заголовки.в ответе, полученном от URI и от четвертой до восьмой строки, свойство Headers представляет собой WebHeaderCollection.Используйте его свойства, чтобы просмотреть коллекцию и отобразить каждый заголовок и десятый, чтобы закрыть запрос, и если вы хотите, чтобы единственная часть заголовка веб-страницы была свободно доступна, класс PHP доступен по адресу http://www.phpclasses.org/package/4033-PHP-Extract-HTML-contained-in-tags-from-a-Web-page.html

...