Соскреб в Интернете без Javascript в Python с использованием запросов - PullRequest
0 голосов
/ 15 апреля 2020

Итак, я делаю сценарий Python, который получает содержимое веб-страниц и сравнивает его с ранее сохраненной версией, чтобы увидеть, изменилась ли веб-страница. Я получаю необработанный контент, используя этот метод:

def getcontent(url):
    str = requests.get(url)
    str = str.text
    return(str)

, после чего я делаю некоторую очистку контента и экранирования цитат и тому подобное, но это не имеет значения. Проблема, с которой я продолжаю сталкиваться, заключается в том, что на веб-странице есть некоторый код JavaScript, который генерирует уникальный ключ, который загружает мой метод. Каждый раз, когда вы захватываете содержимое веб-страницы, ключ отличается. Я понятия не имею, для чего этот ключ. Проблема заключается в том, что если ключ отличается, новый контент и сохраненный контент не идентичны.

Как отключить запуск JavaScript при запросе веб-страницы?

1 Ответ

0 голосов
/ 15 апреля 2020

Токен генерируется на стороне сервера и может использоваться по разным причинам (например, CSRF-токен)

Токен всегда будет в содержании вашего ответа, JavaScript не требуется для который.

Вы должны найти способ игнорировать / удалить токен.

...