Соскоб JavaScript (ReactTable) с BeautifulSoup - PullRequest
1 голос
/ 18 марта 2020

Я хочу почистить информационную таблицу уровня штата, связанную с COVID-19, с веб-сайта CD C (https://www.cdc.gov/coronavirus/2019-ncov/index.html). При использовании BeautifulSoup я сталкиваюсь с ошибкой, когда начинаю пытаться извлечь любую информацию из таблицы. Любая помощь будет принята с благодарностью!

import pandas as pd
import requests
from bs4 import BeautifulSoup
from lxml import html 

url = 'https://www.cdc.gov/coronavirus/2019-ncov/index.html'
html_content = requests.get(url).text
soup = BeautifulSoup(html_content, "lxml")

gdp_table = soup.find("table", attrs={"class": "ReactTable"})
gdp_table_data = gdp_table.tbody.find_all("div")  # contains 2 rows

# Get all the headings of Lists
headings = []
for td in gdp_table_data[0].find_all("td"):
    # remove any newlines and extra spaces from left and right
    headings.append(td.b.text.replace('\n', ' ').strip())

print(headings)

Если вам трудно найти таблицу, на которую я ссылаюсь, она находится на полпути вниз по веб-странице под картой США. Там, где заголовок гласит «Состояния», нажмите «+» рядом с ним.

1 Ответ

0 голосов
/ 18 марта 2020

Существует файл CSV, из которого создается веб-страница. Просто скачайте CSV с https://www.cdc.gov/coronavirus/2019-ncov/map-data-cases.csv

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...