Отвечая на ваш второй вопрос первым; Scrapy - отличный инструмент для очистки веб-страниц в python.
При его использовании существует несколько способов запуска пауков.CrawlSpider может быть предоставлен список начальных URL-адресов для начала.Затем он очищает эти страницы в поисках новых ссылок, которые добавляются в очередь страниц для поиска.
Другой способ его использования - с помощью паука sitemap.Для этого паука вы предоставляете сканеру список URL-адресов файлов сайтов.Затем паук ищет список страниц из карты сайта и сканирует их.