Как мне получить те же HTML из меню проверки, когда данные обслуживаются XML? - PullRequest
0 голосов
/ 14 апреля 2020

Я использую Python модуль request для очистки этого сайта: http://reports.ieso.ca/public/Adequacy2/PUB_Adequacy2_20200114.xml

import requests

def get_info(date=None):
    headers = {
        "Content-Type": "text/html"
    }

    response = requests.get('http://reports.ieso.ca/public/Adequacy2/PUB_Adequacy2_20200114.xml', headers=headers,verify=False)
    print(response.text)
    return response

get_info()

Теперь он возвращает XML, что я понимаю. Но структуру HTML я вижу, когда проверяю, что веб-сайт отличается и намного лучше по своей структуре.

Есть ли способ получить эти данные с запросами вместо данных XML? Или другие альтернативы?

1 Ответ

0 голосов
/ 14 апреля 2020

Я думаю, что красивый суп может сделать то, о чем вы просите.

Установить красивый суп

pip3 install beautifulsoup4

Надеемся, что объект "суп" разберется с тем, что вы ожидаете

import requests
from bs4 import BeautifulSoup

URL = 'https://www.monster.com/jobs/search/?q=Software-Developer&where=Australia'
page = requests.get(URL)

soup = BeautifulSoup(page.content, 'html.parser')
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...