Мне нужно очистить более 1000 различных URL-адресов, и для таких задач я обычно использую запросы + BeautifulSoup. Также легко создавать несколько потоков и открывать несколько URL одновременно, чтобы значительно ускорить процесс. Но я столкнулся с тем, что некоторые URL-адреса загружаются через JS, и я не могу их по-настоящему очистить.
После нескольких часов поиска в Google я обнаружил, что селен позволяет отображать JS страниц и получает HTML , Но, похоже, я не могу найти никакой информации по ускорению сценария на основе селена с помощью Threading. Может ли кто-нибудь предоставить базовый пример использования селена и нитей? Или в основном то, что ускоряет код на основе селена.
Если нет, есть ли альтернативы тому, как я могу сделать JS? Слышал о запросах - html, но, к сожалению, не может установить его по некоторым причинам. Я получаю следующую ошибку:
Не удалось найти функцию xmlCheckVersion в библиотеке libxml2. Установлен ли libxml2?