Предполагая, что веб-сайт не предоставляет API поиска, вам необходимо выполнить автоматическую очистку, в этом случае curl и т. Д. Слишком низкоуровневы и подвержены ошибкам.
Вот несколько широко используемых рекомендаций:
Для автоматизации, отслеживания ссылок, заполнения форм и т. Д. Я настоятельно рекомендую twill API, который представляет собой уровень автоматизации, расположенный поверх mechanize . Twill имеет кучу полезных модулей расширения .
В качестве одного из примеров, для заполнения форм аутентификации, отлично подходит twill.formfill multi_sub .
Для ручной очистки BeautifulSoup , но twill , вероятно, уже делает то, что вам нужно (удаляет все ссылки, формы и т. Д.).