Извлечение числа из html - PullRequest
       14

Извлечение числа из html

0 голосов
/ 13 марта 2020

Я пытаюсь взять число на фотографии здесь и вырезать все остальное, используя Beautiful Soup.

import requests
from bs4 import BeautifulSoup

URL = 'https://www.worldometers.info/coronavirus/'
page = requests.get(URL)
soup = BeautifulSoup(page.content, 'html.parser')

results = soup.find(id="main_table_countries")


print(results.prettify())

Код, как он работает, отлично работает, дает мне все, начиная с этого идентификатора, я просто не совсем уверен, как сузить это до получения этого числа. Кто-нибудь с опытом использования Beautiful Soup знает, как это сделать?

1 Ответ

0 голосов
/ 13 марта 2020

Я только что сделал это вчера, а также для бота разногласий: D,

Я использовал этот код для извлечения страны, здесь была вся информация.

def getCountryTable(country):
    countryTable = ''
    for line in getCoronaTable().split('<tr'):
        if line.find(country) != -1:
            countryTable = line

    return countryTable

Тогда я разбить его и вручную выбрать строки, которые мне нужны, и заменить оставшиеся вещи, которые мне не нужны.

Это пример:

def getCoronaInfected(countryTable):

    tdList = countryTable.split('<td')

    count = tdList[2].replace('style="font-weight: bold; text-align:right">', '').replace('</td> <!--', '')

    return int(count)
...