Войти на сайт и очистить потоковые данные - PullRequest
0 голосов
/ 15 февраля 2011

Я не программист, но прошу об этом из общего любопытства. Я недавно посетил веб-сайт, где я вошел в систему, зашел на страницу, и, не выходя, данные на этой странице обновляются на моих глазах.

Можно ли имитировать браузер (я использовал Chrome) и входить на сайт, переходить на страницу и «очищать» данные, поступающие с использованием Python? Я хотел бы сохранить и проанализировать это.

Если это так, сделав еще один шаг вперед, возможно ли взаимодействие с веб-сайтом? Нажмите кнопку, имя которой я знаю?

Заранее спасибо.

Ответы [ 2 ]

3 голосов
/ 15 февраля 2011

Если данные «обновляются на ваших глазах», это, вероятно, AJAX (javascript на странице, извлекающий новые данные страницы с сервера).

Есть два способа приблизиться к этому;

  1. с помощью Selenium вы можете обернуть реальный браузер, который загрузит страницу, запустить javascript, а затем вы можете получить биты страницы с активной страницы.

  2. вы можете посмотреть, что делает AJAX на странице (как он запрашивает обновления, что он возвращает) и написать код Python для эмуляции этого.

на настройку уходит немало времени и усилий; Selenium немного более устойчив, прямые Python-запросы немного эффективнее, YMMV.

1 голос
/ 15 февраля 2011

Чтобы эмулировать поведение браузера в Python, вы можете использовать модуль mechanize .Потоковые данные, на которые вы ссылаетесь, могут быть flash или javascript.Если это флэш-память, она будет двоичной, и вы не сможете ее получить.Если это javascript, mehanize снова, кажется, имеет проблемы в решении этого вопроса.

...