Поиск фактического URL, загруженного при искажении в исходном коде - PullRequest
0 голосов
/ 11 декабря 2018

Я довольно новичок в веб-поиске и пытаюсь почистить фактический текст в списке резюме на этой странице: https://resumes.indeed.com/search?q=nurse&l=Wolverhampton%2C+West+Midlands&searchFields=jt

Но когда я просматриваю прямой исходный код в браузере, текст нетам он загружает другой URL для списка (в iframe - не уверен), который искажен где-то в исходном коде.Может ли кто-нибудь с большим опытом определить фактический URL-адрес, который мне нужно почистить, чтобы получить весь текст, который отображается по указанной выше ссылке?Обратите внимание, что когда я пытаюсь загрузить один и тот же домен с другим значением параметра l, единственная разница в исходном коде заключается в следующей части, поэтому я предполагаю, что URL, загруженный для этого списка CV, искажен где-то здесь: ... *

q \ x3dnurse \ x26l \ x3dWolverhampton% 2C + Уэст + Мидлендс \ x26searchFields \ x3djt \ x22, \ x22currentUrl \ x22: \ x22https: \ u002F \ u002Fresumes.indeed.com \ u002 \ n2x3dWolverhampton% 2C + Запад + Мидлендс \ x26searchFields \ x3djt \ x22 \ x22emailAddress \ x22: \ х22 \ x22 \ x22featuredEmployer \ x22: ложь, \ x22isMasquerade \ x22: ложь, \ x22language \ x22: \ x22en \ x22 \ x22locale\ x22: \ x22en_GB \ x22 \ x22loggedIn \ x22: ложь, \ x22masquerade \ x22: ложь, \ x22moderated \ x22: ложь, \ x22privileged \ x22: ложь, \ x22showLaunchBanner \ x22: ложь, \ x22subscriptionStatus \ x22: {\x22admin \ x22: ложь, \ x22bulkContact \ x22: ложь, \ x22contactsRemaining \ x22: 0, \ x22hasUnassignedSubscription \ x22: ложь, \ x22hasUnlimitedContacts \ x22: ложь, \ x22subscriptionAssigned \ x22: ложь, \ x22trial \ x22 ложь}, \x22subscriptionsEnabled \ x22: True}, \ x22tk \ x22: \ x221cuebqcud393o800 \ x22} ');

Кроме того, используется ли какой-то специальный заголовок или что-то, что мне нужно включить для доступа к данным?Посмотрите другой вопрос, который я здесь проверил, если я не знаю, как использовать Chrome Devtools для поиска заголовка, используемого, как, очевидно, сделал этот парень: Снимок экрана с фактической страницы, а не исходного html с R

Непосредственно перед приведенным выше кодом есть csrftoken, который выглядит как какой-то шестнадцатеричный ключ и действительно отличается, если я перезагружаю страницу из другого браузера, нужно ли мне где-нибудь это почистить:

x22indeedcsrftoken\x22,\x22csrfToken\x22:\x22WCP4hlkYFgKtzUPXAO4iKBaWPP3nApeQ\

Я собираюсь использовать Excel VBA, чтобы начать как минимум, возможно.Python позже, но я предполагаю, что язык не имеет значения для этого вопроса.Спасибо любезно любое предложение.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...