Содержимое таблицы было скрыто, когда я поцарапал с помощью Beautifulsoup - PullRequest
0 голосов
/ 06 июня 2018

Вот пример моей ситуации.

На самом деле, страница веб-сайта здесь имеет таблицу слева, и я хочу понять ее, используя Python.Структура файла исходного html-файла была показана как:

enter image description here

Информация о некоторых образцах существовала внутри 'id = companylist'.Поэтому ниже я написал код для их чтения:

url = 'http://182.148.109.184/gisnavigation!citysuriverPage.action?regioncode=510300#'
page = requests.get(url, headers={'Referer' : url})
soup = BeautifulSoup(page.text, 'html.parser')
table    = soup.find("tbody", {"id": "companylist"})  

Однако на выходе получаются только две строки строк без полезной информации.

 [<tbody id="companylist">
 </tbody>]

Кто-нибудь знает правильную обработку?

1 Ответ

0 голосов
/ 06 июня 2018

Как указано в комментариях, содержимое отображается с помощью JavaScript, запущенного в вашем браузере.Вы можете использовать Requests-HTML , который запускает Chromium за кулисами.

**Code:**

from requests_html import HTMLSession

url = 'http://182.148.109.184/gisnavigation!citysuriverPage.action?regioncode=510300#'
session = HTMLSession()
r = session.get(url)
r.html.render()

table = r.html.find('#companylist')[0]
print(table.text)

Вывод:

富顺首创水务有限公司
自贡市
污水厂
...
自贡张家坝氯碱化工有限责任...
自贡市
废气
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...