Содержимое тега DIV становится пустым при очистке с помощью BeautifulSoup - PullRequest
0 голосов
/ 03 апреля 2019

Я пытаюсь очистить веб-страницу, содержащую таблицу результатов тестов, используя Python и BeautifulSoup. На данный момент я не против, если это просто необработанные html / un анализированные данные.

Существует таблица результатов, которые все содержатся в родительском теге DIV под названием 'test-view-grid-area'.

Я получил класс имени тега DIV при проверке веб-страницыв chrome, и при просмотре источника веб-страницы это определенно правильно, но когда я запускаю приведенный ниже код, мои результаты возвращаются в виде:

[<div class="test-view-grid-area"></div>]

Итак, похоже, что он находит тег, но не возвращает его содержимое?Я не уверен, что мне нужно сделать, чтобы получить содержимое класса DIV.

from bs4 import BeautifulSoup
import urllib3
http = urllib3.PoolManager()
url = '[url of server / webpage]')
response = http.request('GET', url, headers=headers)
soup = BeautifulSoup (response.data, 'html.parser')
grid_data = soup.find_all("div", class_="test-view-grid-area")
print(grid_data)

Редактировать: я получил немного дальше, теперь я получаю следующий ответ непосредственно из тега скриптакоторый возвращает строку JSON:

[<script class="__allSuitesOfSelectedPlan" defer="defer" type="application/json">
{"selectedOutcome":"","selectedTester":{"displayName" <etc>}</script>]

Итак, теперь я пытаюсь выяснить, как сделать некоторое регулярное выражение, чтобы создать мой шаблон поиска для всего между {}, а затем запустить этот шаблон для моей начальной очистки данных,и затем загрузите строку json в объект.

...