Получить куки с сайта с запросами в python - PullRequest
0 голосов
/ 16 февраля 2020

Я пытаюсь получить все файлы cookie (включая файлы cookie, установленные javascript) с веб-сайта, используя python. На данный момент я пытаюсь сделать это с модулем запросов.

http-куки не проблема. Я могу поймать их с помощью:

response = requests.get("http://example.com")
http_cookies = response.cookies

Печенье, которое установлено javascript, немного сложно. Я выполняю поиск по всем тегам <script ..>...</script> и интегрированным источникам javascripts <script ... src="..."> на веб-сайте с помощью регулярных выражений.

Теперь у меня есть большой список со строками, который содержит все javascript на странице. Я считаю, что все файлы cookie, установленные javascript, имеют форму document.cookie = "...";. Это верно?

Я думаю, что я могу искать в моем списке с кодом javascript подстроки, такие как document.cookie = "..."; с регулярным выражением.

Я прав? Меня интересует только имя повара ie. Например, _ga для Google Analytics.

Спасибо за помощь!

1 Ответ

0 голосов
/ 19 февраля 2020

Как сказал Крис, поиск файлов cookie с использованием этого регулярного выражения невозможен, поскольку файлы cookie можно задавать множеством способов, не ограничиваясь только document.cookie.

. Я бы предложил использовать Selenium, который имитирует браузер, где вы можете получить куки, используя следующее:

import pickle
import selenium.webdriver 

driver = selenium.webdriver.Firefox()
driver.get("http://www.google.com")
pickle.dump( driver.get_cookies() , open("cookies.pkl","wb"))
...