Question

Я очищаю веб-сайт, используя BeautifulSoup

CHN = "https://ncov.dxy.cn/ncovh5/view/pneumonia?scene=2&clicktime=1579582238&enterid=1579582238&from=singlemessage&isappinstalled=0"
response3 = get(CHN, headers=headers)
response3.encoding='utf-8'

Очистите весь контент с веб-сайта

html_soup3 = BeautifulSoup (response3.text, 'html .parser')

html_soup = BeautifulSoup(response.text, 'html.parser')

и затем ищу скрипт с идентификатором объявления

scripts = html_soup3.find_all('script', id='getAreaStat')
print(scripts)


Out[64]: [<script id="getAreaStat">try { window.getAreaStat = [{"provinceName":"湖北省","provinceShortName":"湖北","currentConfirmedCount":2895,"confirmedCount":67801,"suspectedCount":0,"curedCount":61732,"deadCount":3174,"comment":"","locationId":420000,"statisticsData":"https://file1.dxycdn.com/2020/0223/618/3398299751673487511-135.json","cities":[{"cityName":"武汉","currentConfirmedCount":2880,"confirmedCount":50006,"suspectedCount":0,"curedCount":44591,"deadCount":2535,"locationId":420100},{"cityName":"孝感","currentConfirmedCount":4,"confirmedCount":3518,"suspectedCount":0,"curedCount":3386,"deadCount":128,"locationId":420900},

Интересно, как я могу получить словарь с провинциейName и их детьми.

QHarr · Answer 1 · 27 марта 2020

Вы можете взять текст ответа и повторно вывести соответствующую строку и использовать библиотеку ast для преобразования в dict

import ast, re

#r = response text appropriately encoded
p = re.compile(r'window\.getAreaStat = \[(.*?)\]}catch')
data = p.findall(r)[0]
print(ast.literal_eval(data))

См. Здесь регулярное выражение

Объяснение:

Более полный пример (часть кодирования взята из @ 宏杰李 здесь ):

import requests, re, ast

res = requests.get('https://ncov.dxy.cn/ncovh5/view/pneumonia?scene=2&clicktime=1579582238&enterid=1579582238&from=singlemessage&isappinstalled=0')
res.encoding = "GBK"
r = res.text
p = re.compile(r'window\.getAreaStat = \[(.*?)\]}catch')
data = p.findall(r)[0]
print(ast.literal_eval(data))

BeautifulSoup веб-царапина получить детей

Очистите весь контент с веб-сайта

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

BeautifulSoup веб-царапина получить детей

Очистите весь контент с веб-сайта

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов