Очистка страниц с несколькими частями с помощью Python - PullRequest
0 голосов
/ 24 августа 2018

Я хочу очистить этот сайт для получения полного списка товарищей по команде. Я знаю, как сделать это с beautifoulsoup для первой страницы, но результаты разбиты на многих страницах. Есть ли способ очистить все детали?

Спасибо!

1 Ответ

0 голосов
/ 24 августа 2018

https://www.transfermarkt.co.uk/yvon-mvogo/profil/spieler/147051

https://www.transfermarkt.co.uk/steve-von-bergen/profil/spieler/4793

https://www.transfermarkt.co.uk/scott-sutter/profil/spieler/34520

Выше приведены некоторые ссылки на профили игроков. Вы можете открыть страницу в BeautifulSoup и проанализировать ее, чтобы получить все ссылки в ней. Напишите регулярное выражение после, чтобы отфильтровать только ссылки, которые удовлетворяют вышеуказанному шаблону, и напишите другую функцию для извлечения информации со страниц профиля

soup = BeautifulSoup(html_page,'html.parser')
for a in soup.find_all('a', href=True):
    m = re.search('/[a-z\-]+/profil/spieler/[0-9]+', a['href'])
    if m:
        found = m.group(0)
        print(found)

выход

/ майкл-Фрей / Profil / шулер / 147043
/ Ивон-mvogo / Profil / шулер / 147051
/ Скот-Sutter / Profil / шулер / 34520
/ Леонардо-Bertone / Profil / шулер / 194975
/ Стив-фон-Bergen / Профиль / Шпилер / 4793
/ Alain-NEF / Профиль / Шпилер / 4945
/ Raphael-nuzzolo / Profil / шулер / 32574
/ Марко-Wölfli / Профиль / Шпилер / 4860
/ Moreno-Костанцо / Profil / шулер / 41207
/ январь-lecjaks / Profil / шулер / 62854
/ Alain-Рош / Profil / шулер / 4843
/ Christoph-Spycher / Profil / шулер / 2871
/ Гонсало-Сарате / Profil / шулер / 52731
/ Христианско-Schneuwly / Profil / шулер / 52556
/ Юя-Кубо / Profil / шулер / 186260
/ александр-Фарнеруд / Profil / шулер / 10255
/ Салим-khelifi / Profil / шулер / 147049
/ александр-Герндт / Profil / шулер / 45881
/ Adrian-зима / Profil / шулер / 59681
/ триумфатор-Пальссон / Profil / шулер / 97241
/ милан-Gajic / Profil / шулер / 46928
/ Душан-veskovac / Profil / шулер / 28705
/ марко-Бурки / Profil / шулер / 172192
/ Elsad-zverotic / Profil / шулер / 25542
/ па-Мода / Profil / шулер / 66449
/ Yoric-ravet / Profil / шулер / 82461

Вы можете перебирать все ссылки и вызывать функцию, которая извлекает необходимую информацию со страниц профиля. Надеюсь, это поможет

Используйте эту ссылку. Я получил это от осмотра кнопок

https://www.transfermarkt.co.uk/michael-frey/gemeinsameSpiele/spieler/147043/ajax/yw2/page/1

Вы можете изменить номер в конце, чтобы получить каждую страницу

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...