Python Web Scraping с помощью lxml - PullRequest
0 голосов
/ 13 ноября 2018

Я пытаюсь очистить имена столбцов (игрок, стоимость, выбор, форма, очки) со страницы ниже:

https://fantasy.premierleague.com/a/statistics/total_points

Однако я не могу этого сделать. Прежде чем идти дальше, позвольте мне показать вам, что я сделал.

from lxml import html
import requests


page = 'https://fantasy.premierleague.com/a/statistics/total_points'
#Take site and structure html
page = requests.get(page)
tree = html.fromstring(page.content)

#Using the page's CSS classes, extract all links pointing to a team
Location = tree.cssselect('.ism-thead-bold tr .ism-table--el-stats__name')

Когда я делаю это, Location должен быть списком, который содержит строку «Player». Однако он возвращает пустой список, что означает, что cssselect ничего не записывал.

Хотя у каждого имени столбца свой «класс», я использовал один из них (ism-table - el-stats__name) для этого конкретного испытания, чтобы упростить его.

Когда эта проблема исправлена, я хочу использовать регулярные выражения, поскольку каждый класс имеет разные суффиксы после двух подчеркиваний.

Если кто-нибудь может помочь мне в этих двух заданиях, я был бы очень признателен!

спасибо, ребята.

...