Веб-страница AJAX, имеющая зашифрованный параметр, определяющий IP пользователя, значение не изменяется в моем ответе на запрос - PullRequest
0 голосов
/ 30 мая 2019

Во время работы в Интернете я обнаружил кое-что интересное, которое может обнаружить скребок и реагировать на него иначе, чем реальный пользователь.

Краткое описание моей ситуации на данный момент:

  1. Я нашел iframe таблицы, поэтому URL моего скребка использует этот iframe URL.

  2. Но "id", который я получил от этого URL-адреса iframe, не работает для URL-адреса целевой таблицы!

  3. Но мой скребок работает всякий раз, когда я на самом деле посещаю реальный URL пользователя (первая реальная страница, на которой отображается iframe)

Я пишу скребок в онлайн-среде IDE. На целевой веб-странице есть фрейм и представленная таблица дается через некоторый URL который состоит из идентификатора и зашифрованного параметра.

Итак, используя инспекционную панель Chrome, Я вычел, чтобы восстановить правильный URL.

К сожалению, это не сработало, и до сих пор я полагал, что идентификатор, полученный при очистке, неверен по сравнению с идентификатором, полученным при фактическом посещении через мой браузер Chrome.

Мой вопрос: Есть ли вероятность, что веб-сайт проверяет пользователя, который перешел непосредственно на веб-сайт iframe, и сравнить идентификатор с идентификатором, выданным на реальном сайте, и отказаться от предоставления «реального» параметра id? или есть технология для обнаружения прокрутки пользователя или что-то, что предотвращает соскабливание?

Объяснение сайта:

  1. фактический URL (где реальные пользователи видят сводную финансовую таблицу): http://bitly.kr/ul0DmY (Извините, я изменил URL, поскольку он может помочь раскрыть логику сайта и заставить их изменить его; тикер заканчивается в конце)

    Здесь мы можем найти годовую финансовую таблицу, которая составляет

и это интересующая меня таблица, и она активируется, когда пользователь щелкает по ней. И следующий брат этого элемента, и он меняется. поэтому я извлекаю это так, как описано ниже

  1. URL-адрес iframe годовой таблицы: http://bitly.kr/PFtQDW : тикер (тикер здесь и в конце тоже)
  2. из "2" выше, я получаю идентификатор и параметр (encparam в коде JavaScript)

  3. фактический код Python для захвата скрипта URL iframe:

    script_tag = bs.find_all ('script', type = "text / javascript") [- 1]

  4. ajax webpage Я хочу извлечь годовую таблицу:

    'https://navercomp.wisereport.co.kr/v2/company/ajax/cF1001.aspx?cmp_cd=010960&fin_typ=0&freq_typ=Y&encparam=' + (здесь я поставил параметр) + '& id =' + (здесь я поставил значение id)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...