WebScraping с файлом BeautifulSoup JSON в DIVs. Как вытащить это легко - PullRequest
0 голосов
/ 05 апреля 2020

Я пытался получить информацию с веб-сайта обычным способом, используя имена классов необходимых элементов.

Через некоторое время я заметил, что в верхней части кода HTML есть часть это выглядит как JSON файл со всей необходимой информацией.

Вот как это выглядит: https://drive.google.com/open?id=1utP_ldRWCaabLKcOvsWu_6NHP3ClrdQQ

Я пытался очистить этот файл, но я до сих пор не могу прочитать его как JSON. Я подумал, может быть, это общая проблема, и кто-то может помочь мне найти простой способ извлечь информацию из этой части HTML. Это было бы намного быстрее и проще, чем извлекать частичные фрагменты из многих мест.

Если кто-нибудь знает, что читать, я также буду признателен. Любая помощь очень ценна.

1 Ответ

0 голосов
/ 05 апреля 2020

Я полагаю, что ваши данные поступают с помощью bs4 парсера, поэтому вы можете загрузить данные в JSON, используя следующее:

import json

target = soup.find("div",class_="search-results").get("data-context")

loader = json.loads(target)

print(loader)

pretty = json.dumps(loader,indent=4)

# print(pretty) # for human readable vision.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...