Проблема с поиском правильного селектора для обхода Google Recaptcha - PullRequest
0 голосов
/ 03 мая 2019

Во-первых, я должен сказать, что я очень плохо знаком с идеей веб-очистки. Я изучил основы web-скрейпинга, используя request + BeautifulSoup и Scrappy на python. Я успешно смог повторить то, что я узнал, используя python с javascript, с помощью Nightmare и cheerio.

Я пытался обойти Google Reaptcha на этом сайте , используя действие клика Nightmare на флажок Google Reaptcha, и для всех различных селекторов CSS, которые я пробовал, я получаю сообщение об ошибке: что селектор с таким именем не найден.

Мой мыслительный процесс звучит так: «Если я могу нажать на рекапчу, я буду обходить ее, поэтому мне просто нужно нажать на нее», поэтому я использую действие щелчка в Кошмаре.

Моя цель - обойти Google Reaptcha и сделать скриншот сайта.

Теперь у меня есть 2 вопроса:

Вопрос 1: Я просто использую неправильные селекторы CSS? Что я могу сделать, чтобы определить правильные селекторы для обхода Google Reaptcha? Если у меня неправильный селектор CSS, укажите правильный (-ые) селектор (-ы).

Вопрос 2: Есть ли какой-то механизм против соскабливания, мешающий мне нажимать на него? Мой мыслительный процесс неправильный, если так, то почему он неправильный? Как мне обойти этот механизм, мешающий мне достичь цели?

Вот код, который я использовал, конечно же, я использовал другие селекторы на основе идентификаторов и классов

  const Nightmare = require("nightmare");
    const nightmare = Nightmare({
      show: false,
      frame: false,
      width: 1024,
      height: 1024
    });
    nightmare
      .goto("https://www.sneakersnstuff.com/en/858/new-arrivals")
      .click('div.recaptcha-checkbox-checkmark')
      .screenshot("./2.png")
      .end(() => "done")
      .then(() => console.log("Finally over"));

...