Имитация поведения расширения ресурсов браузера с помощью Python - PullRequest
2 голосов
/ 15 июня 2010

Я ищу способ имитации поведения расширения ресурсов браузера.

Поток, к которому я пытаюсь обратиться, следующий:

  • Доступ к исходному URL (например,http://example.dmn/index.htm)
  • Анализировать полученный ответ html (например, index.htm)
  • Найти ресурсы, которые браузер получит в результате анализа индекса, например:
    • Изображения
    • Flash
    • Встроенные видео / аудио
    • Кадры / кадры
  • Повторение процесса рекурсивно для каждого нового ресурсанайдено

Я не собираюсь переходить по ссылкам (href), только ресурсы страницы, которые будут автоматически выбираться браузером при первом доступе к странице.

У вас естьпредложение, как выполнить эту симуляцию?

Существуют ли какие-либо проекты / библиотеки Python, которые могут помочь?

Спасибо

Ответы [ 3 ]

1 голос
/ 15 июня 2010

Возможно, вы захотите посмотреть на spider.py и robotparser .Запретив тем, кто делает то, что вы хотите автоматически, вы можете сами покопаться в супе HTML с BeautifulSoup .

1 голос
/ 15 июня 2010

Возможно, вы захотите взглянуть на Scrapy .

Он может не предоставлять все необходимые функции, но может быть легко расширен для этого.

1 голос
/ 15 июня 2010

Возможно, вы захотите взглянуть на Windmill Testing Framework , который позволяет писать тесты на Python для веб-приложений.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...