Сканирование сайта и обнаружение сторонних файлов cookie - PullRequest
1 голос
/ 08 марта 2012

Я пишу сканер для регистрации всех файлов cookie, развертываемых на определенном количестве сайтов. Я могу получить сторонние файлы cookie, которые устанавливаются при посещении страницы с использованием селена, но ограничение в программном обеспечении означает, что оно не будет принимать сторонние файлы cookie. Существуют ли другие инструменты, которые могут выбрать все файлы cookie?

Спасибо.

Ответы [ 2 ]

1 голос
/ 15 марта 2012

Если вы делаете это как разовую задачу, вы можете использовать что-то вроде расширения FireCookie для браузера Firefox, который позволяет вам экспортировать все куки: http://www.softwareishard.com/blog/firecookie/

Если вы хотите автоматизироватьВыполните эту задачу и периодически запускайте ее, рассмотрите решение, подобное следующему:

  1. Сначала получите список страниц, которые необходимо сканировать.
  2. Затем последовательно загрузите каждую страницу в веб-браузер.,Недостаточно просто извлечь HTML-код страницы, потому что вам нужно загрузить и обработать все javascript, iframes и т. Д., Которые могут устанавливать куки.Вероятно, это может быть безголовый браузер, такой как PhantomJS (http://www.phantomjs.org/) или какое-то другое решение, если он действительно отображает страницу так, как это делает браузер.
  3. Используйте веб-прокси, например, прокси-сервер Charles (http://www.charlesproxy.com/), для записи всех сетевых запросов из браузера.Записанный сеанс может быть сохранен и обработан для извлечения всех заголовков cookie.Прокси Charles имеет API, который можно использовать для экспорта сеанса в файл XML, так что вы можете также автоматизировать эту часть.
0 голосов
/ 09 марта 2012

Я полагаю, что вы можете использовать RegEx и ie.GetCookie () для сбора всех файлов cookie с веб-сайта. Сам не пробовал, но что касается документации, думаю, это будет довольно просто.

...