Я использую Python модуль request для очистки этого сайта: http://reports.ieso.ca/public/Adequacy2/PUB_Adequacy2_20200114.xml
request
import requests def get_info(date=None): headers = { "Content-Type": "text/html" } response = requests.get('http://reports.ieso.ca/public/Adequacy2/PUB_Adequacy2_20200114.xml', headers=headers,verify=False) print(response.text) return response get_info()
Теперь он возвращает XML, что я понимаю. Но структуру HTML я вижу, когда проверяю, что веб-сайт отличается и намного лучше по своей структуре.
Есть ли способ получить эти данные с запросами вместо данных XML? Или другие альтернативы?
Я думаю, что красивый суп может сделать то, о чем вы просите.
Установить красивый суп
pip3 install beautifulsoup4
Надеемся, что объект "суп" разберется с тем, что вы ожидаете
import requests from bs4 import BeautifulSoup URL = 'https://www.monster.com/jobs/search/?q=Software-Developer&where=Australia' page = requests.get(URL) soup = BeautifulSoup(page.content, 'html.parser')