Скребущая вики-страница, состоящая из нескольких неупорядоченных списков (красивый суп) - PullRequest
0 голосов
/ 26 апреля 2020

Я пытаюсь вычистить список пригородов в Мельбурне с этой страницы Википедии и сохранить его в кадре данных, состоящем из названий пригородов и почтовых индексов. Страница вики состоит из множества неупорядоченных списков (элемент ul), и я пытаюсь извлечь содержимое неупорядоченного списка с заголовком: «Город Мельбурн»

Я пробовал это:

!pip install bs4
from bs4 import BeautifulSoup

wiki_url = requests.get('https://en.wikipedia.org/wiki/List_of_Melbourne_suburbs#References').text
soup = BeautifulSoup(wiki_url, features='html.parser')
soup1 = soup.find_all('ul')
#print(soup1)

но это, похоже, возвращает только что-то вроде:

[<ul>
<li class="toclevel-1 tocsection-1"><a href="#Inner_City_municipalities_and_their_suburbs_(followed_by_their_4-digit_postcodes)"><span class="tocnumber">1</span> <span class="toctext">Inner City municipalities and their suburbs (followed by their 4-digit postcodes)</span></a>
<ul>
<li class="toclevel-2 tocsection-2"><a href="#City_of_Melbourne"><span class="tocnumber">1.1</span> <span class="toctext">City of Melbourne</span></a></li>
<li class="toclevel-2 tocsection-3"><a href="#City_of_Port_Phillip"><span class="tocnumber">1.2</span> <span class="toctext">City of Port Phillip</span></a></li>
<li class="toclevel-2 tocsection-4"><a href="#City_of_Yarra"><span class="tocnumber">1.3</span> <span class="toctext">City of Yarra</span></a></li>
</ul>
</li>
<li class="toclevel-1 tocsection-5"><a href="#Northern_municipalities_and_their_suburbs"><span class="tocnumber">2</span> <span class="toctext">Northern municipalities and their suburbs</span></a>
<ul>
<li class="toclevel-2 tocsection-6"><a href="#City_of_Banyule"><span class="tocnumber">2.1</span> <span class="toctext">City of Banyule</span></a></li>
<li class="toclevel-2 tocsection-7"><a href="#City_of_Darebin"><span class="tocnumber">2.2</span> <span class="toctext">City of Darebin</span></a></li>
<li class="toclevel-2 tocsection-8"><a href="#City_of_Hume"><span class="tocnumber">2.3</span> <span class="toctext">City of Hume</span></a>
<ul>

без возврата элементов html li, которые я на самом деле пытаюсь извлечь. Данные, которые мне нужны, - это только названия пригородов и почтовый индекс в разделе «Муниципалитеты центра города» и списки в городе Мельбурн, Порт-Филлип и др. c

Что я делаю не так? Заранее спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...