Я хочу почистить информационную таблицу уровня штата, связанную с COVID-19, с веб-сайта CD C (https://www.cdc.gov/coronavirus/2019-ncov/index.html). При использовании BeautifulSoup я сталкиваюсь с ошибкой, когда начинаю пытаться извлечь любую информацию из таблицы. Любая помощь будет принята с благодарностью!
import pandas as pd
import requests
from bs4 import BeautifulSoup
from lxml import html
url = 'https://www.cdc.gov/coronavirus/2019-ncov/index.html'
html_content = requests.get(url).text
soup = BeautifulSoup(html_content, "lxml")
gdp_table = soup.find("table", attrs={"class": "ReactTable"})
gdp_table_data = gdp_table.tbody.find_all("div") # contains 2 rows
# Get all the headings of Lists
headings = []
for td in gdp_table_data[0].find_all("td"):
# remove any newlines and extra spaces from left and right
headings.append(td.b.text.replace('\n', ' ').strip())
print(headings)
Если вам трудно найти таблицу, на которую я ссылаюсь, она находится на полпути вниз по веб-странице под картой США. Там, где заголовок гласит «Состояния», нажмите «+» рядом с ним.