Выбор веб-инфраструктуры Python для работы с сайтами, основанными исключительно на Javascript - PullRequest
2 голосов
/ 12 июня 2011

Я программист на Python, специализирующийся на поиске в Интернете, мне пришлось задать этот вопрос, так как я не нашел ничего подходящего.

Я хочу знать, какие популярные, хорошо документированные фреймворки доступны для Python для очистки чистых сайтов на основе Javascript? В настоящее время я знаю Mechanize и Beautiful Soup, но они не взаимодействуют с Javascript, поэтому я ищу что-то другое. Я бы предпочел что-то такое же элегантное и простое, как механизация.

Я провел небольшое исследование и до сих пор слышал о Selenium, Selenium 2 и Windmill.

Сейчас я пытаюсь выбрать одну из этих трех, и я не знаю ни одной другой.

Так может ли кто-нибудь указать на особенности этих фреймворков и чем они отличаются? Я слышал, что Selenium использует отдельный сервер для выполнения всех своих задач, и он, кажется, многофункциональный. Кроме того, в чем основная разница между Selenium и Selenium2? Пожалуйста, просветите меня, если я ошибаюсь, и если вы знаете какие-либо другие фреймворки, упомяните их особенности и другие детали.

Спасибо.

1 Ответ

0 голосов
/ 12 июня 2011

Прежде чем использовать такие инструменты, как Selenium, которые предназначены для тестирования переднего плана, а не для очистки, вы должны посмотреть, откуда поступают данные на сайте.Узнайте, какие XHR-запросы сделаны, какие параметры они принимают и каков результат.

Например, сайт, который вы упомянули в своем комментарии, выполняет запрос POST с большим количеством параметров в JavaScript и отображает результат.Вам, вероятно, нужно использовать только результат этого запроса POST для получения ваших данных.

...