Python Запрос dork скребка движка Bing не возвращает результатов при использовании прокси - PullRequest
0 голосов
/ 28 апреля 2020

Я работаю над шаблоном Bing Engine, который ищет электронные письма с указанным c доменом. И это прекрасно работает, когда я использую свое собственное соединение inte rnet. Недавно я купил несколько вращающихся прокси, чтобы я мог запускать их в течение более длительного времени, не забанив их, и почти все прокси не дают результатов вообще, если один и тот же запрос даст результаты без использования прокси. Но только для глупых запросов. С прокси я могу искать обычные ключевые слова, такие как "видеоигры", "ТВ-шоу", и это отлично работает. Но когда я пытаюсь получить результаты для @ domain.com. это вернуло бы это html. enter image description here

Я использую python и asyncio + aiohttp для загрузки htmls и Beautifulsoup для анализа. Прокси-серверы http и вращаются каждые 5 минут. Так как это не сработало, я провел несколько экспериментов.

  1. Попробуйте разные библиотеки http. (запросы, греки, urllib) Все эти библиотеки дали более или менее одинаковый результат. Нет результатов.
  2. Попытка с использованием веб-драйвера. (pyppeteer) Нет разницы. придурки не работают, но обычные ключевые слова работают.
  3. Затем я добавил прокси в мою ОС и проверил запросы на chrome, и у них были результаты, которые я хотел.

Тогда я купил еще 100 прокси без вращения, чтобы увидеть, может быть проблема была с вращающимися прокси. И это было почти то же самое. Но я узнал кое-что интересное. Я запустил один и тот же запрос, используя все 100 прокси, сохранил возвращенные htmls в файлах и открыл каждый Только горстка вернула результаты. Другие имели ошибку «Нет результатов». Те, которые имели некоторые результаты, были интересны.

Мой скрипт выполняет поиск на @ domain.com, получает страницу результатов и просматривает письма, используя регулярные выражения. И движок делает это, когда он показывает ключевое слово "@ domain.com", выделенное жирным шрифтом в описании под каждым результатом.

enter image description here

И несколько прокси, которые вернулись с некоторыми результатами, имели разную направленность на ключевое слово следующим образом. И никаких электронных писем не появилось в части описания.

enter image description here

enter image description here

Итак я пытаюсь выяснить, что здесь не так. Это просто прокси? если так, то почему обычные ключевые слова работают, а не придурки? Пожалуйста, помогите мне!

...