Я не могу получить HTML от нескольких сайтов, но могу от многих других.Вот 2 сайта, с которыми у меня проблемы:
https://www.rei.com
https://www.homedepot.com
Я создаю приложение, которое будетполучить информацию метатега из URL, который вводит пользователь.Получив код HTML, я обрабатываю его с помощью пакета Agility HTML, и он работает отлично.Проблема заключается в получении HTML-кода с различных веб-сайтов.
Я пробовал разные способы получить HTML-код (HtmlWeb
, HttpWebRequest
и другие), все с помощью установки user-agent (тот же тег агента, что и в Chrome).), заголовки, куки и автоадресация, gzip-ы и, похоже, каждая комбинация.Все проверено, выглядя как Fiddler, но я не могу понять, почему я не могу получить HTML с некоторых сайтов, они просто перестают работать, когда я могу просто найти тот же URL в своем браузере.Заголовки, которые я отправляю, выглядят так же, как Fiddler.Кто-нибудь знает, что заставляет URL не возвращать HTML / данные?Или у кого-нибудь есть пакет или платформа NuGet, которые обрабатывают все нюансы получения HTML-страницы / документа, независимо от того, является ли веб-сайт SSL, gzip, требуются файлы cookie, перенаправления и т. Д. *
Зайдя в этот проект, яЯ думал, что самой сложной частью будет обработка HTML, а не получение, поэтому любая помощь будет оценена.
ОБНОВЛЕНИЕ 1:
Я пытался, но просто не могузаставить его работать ... Я, должно быть, упускаю что-то простое ... вот обновленный пример с некоторыми из предложенных изменений.
https://dotnetfiddle.net/tQyav7
Мне пришлось закомментировать ServerCertificateValidationCallback на dotnetfiddle, потому что он выдавал ошибку там, но ее нет в моем окне разработчика.Я также должен был установить тайм-аут всего на 5 секунд ... У меня он равен 20 на моем устройстве dev.Любая помощь будет оценена.