Есть много способов сделать это. Но помните несколько вещей:
1. Содержимое, которое вы пытаетесь извлечь / почистить, должно быть частью исходного кода Страницы, а не сгенерировано javascript или другим подобным способом.
2. Если есть сложный процесс аутентификации, вам, возможно, придется слишком сильно ломать мозги. В таком случае лучше использовать PhantomJS на Selenium.
Подойдя к инструментам, вы можете использовать:
1. Для отправки HTTP GET и POST запросов вы можете использовать модуль Requests из Python.
2.Модуль имеет функцию загрузки исходного кода страницы.
3. Чтобы проанализировать этот исходный код и получить ваш контент, вы можете использовать анализатор minidom или BeautifulSoup.