С чего начать со сценарием проекта - поиск только веб-сайта для входа в систему из term / cmd - PullRequest
0 голосов
/ 12 сентября 2011

Я пытаюсь написать для себя скрипт, который будет входить на конкретный сайт и использовать функцию поиска по сайту. Затем скрипт запишет список результатов поиска в стандартный вывод, где я выберу один из результатов и выполню различные действия на странице. Я очень потерян, как с чего начать. Я уже попробовал различные веб-библиотеки cURL и python, но я не смог придумать ничего, что работает.

1 Ответ

3 голосов
/ 12 сентября 2011

Предполагая, что веб-сайт не предоставляет API поиска, вам необходимо выполнить автоматическую очистку, в этом случае curl и т. Д. Слишком низкоуровневы и подвержены ошибкам. Вот несколько широко используемых рекомендаций:

Для автоматизации, отслеживания ссылок, заполнения форм и т. Д. Я настоятельно рекомендую twill API, который представляет собой уровень автоматизации, расположенный поверх mechanize . Twill имеет кучу полезных модулей расширения . В качестве одного из примеров, для заполнения форм аутентификации, отлично подходит twill.formfill multi_sub .

Для ручной очистки BeautifulSoup , но twill , вероятно, уже делает то, что вам нужно (удаляет все ссылки, формы и т. Д.).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...