Во время работы в Интернете я обнаружил кое-что интересное, которое может обнаружить скребок и реагировать на него иначе, чем реальный пользователь.
Краткое описание моей ситуации на данный момент:
Я нашел iframe таблицы, поэтому URL моего скребка использует этот iframe
URL.
Но "id", который я получил от этого URL-адреса iframe, не работает для URL-адреса целевой таблицы!
Но мой скребок работает всякий раз, когда я на самом деле посещаю реальный URL пользователя (первая реальная страница, на которой отображается iframe)
Я пишу скребок в онлайн-среде IDE.
На целевой веб-странице есть фрейм
и представленная таблица дается через некоторый URL
который состоит из идентификатора и зашифрованного параметра.
Итак, используя инспекционную панель Chrome,
Я вычел, чтобы восстановить правильный URL.
К сожалению, это не сработало, и до сих пор я полагал, что идентификатор, полученный при очистке, неверен по сравнению с идентификатором, полученным при фактическом посещении через мой браузер Chrome.
Мой вопрос:
Есть ли вероятность, что веб-сайт проверяет пользователя, который перешел непосредственно на веб-сайт iframe, и
сравнить идентификатор с идентификатором, выданным на реальном сайте, и отказаться от предоставления «реального» параметра id?
или есть технология для обнаружения прокрутки пользователя или что-то, что предотвращает соскабливание?
Объяснение сайта:
фактический URL (где реальные пользователи видят сводную финансовую таблицу): http://bitly.kr/ul0DmY
(Извините, я изменил URL, поскольку он может помочь раскрыть логику сайта и заставить их изменить его; тикер заканчивается в конце)
Здесь мы можем найти годовую финансовую таблицу, которая составляет
и это интересующая меня таблица, и она активируется, когда пользователь щелкает по ней. И следующий брат этого элемента, и он меняется. поэтому я извлекаю это так, как описано ниже
- URL-адрес iframe годовой таблицы:
http://bitly.kr/PFtQDW
: тикер (тикер здесь и в конце тоже)
из "2" выше, я получаю идентификатор и параметр (encparam в коде JavaScript)
фактический код Python для захвата скрипта URL iframe:
script_tag = bs.find_all ('script', type = "text / javascript") [- 1]
ajax webpage Я хочу извлечь годовую таблицу:
'https://navercomp.wisereport.co.kr/v2/company/ajax/cF1001.aspx?cmp_cd=010960&fin_typ=0&freq_typ=Y&encparam=' + (здесь я поставил параметр) +
'& id =' + (здесь я поставил значение id)