извлечение данных из таблицы википедии - PullRequest
0 голосов
/ 26 февраля 2019

Я просто пытаюсь собрать данные из таблицы википедии в фрейм данных panda.

Мне нужно воспроизвести три столбца: "Почтовый индекс, район, район".

import requests
website_url = requests.get('https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M').text
from bs4 import BeautifulSoup
soup = BeautifulSoup(website_url,'xml')
print(soup.prettify())

My_table = soup.find('table',{'class':'wikitable sortable'})
My_table

links = My_table.findAll('a')
links

Neighbourhood = []
for link in links:
    Neighbourhood.append(link.get('title'))

print (Neighbourhood)

import pandas as pd
df = pd.DataFrame([])
df['PostalCode', 'Borough', 'Neighbourhood'] = pd.Series(Neighbourhood)

df

И он возвращает только район ...

Спасибо

Ответы [ 3 ]

0 голосов
/ 26 февраля 2019

Возможно, вы переоцениваете проблему, если хотите, чтобы скрипт только вытягивал одну таблицу со страницы.Один импорт, одна строка, без петель:

import pandas as pd
url='https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M'

df=pd.read_html(url, header=0)[0]

df.head()

    Postcode    Borough         Neighbourhood
0   M1A         Not assigned    Not assigned
1   M2A         Not assigned    Not assigned
2   M3A         North York      Parkwoods
3   M4A         North York      Victoria Village
4   M5A         Downtown Toronto    Harbourfront
0 голосов
/ 15 марта 2019

Basedig предоставляет платформу для прямой загрузки таблиц Википедии в виде файлов Excel, CSV или JSON.Вот ссылка на источник в Википедии: https://www.basedig.com/wikipedia/

Если вы не нашли нужный набор данных в Basedig, отправьте им ссылку на вашу статью, и они проанализируют ее для вас.Надеюсь, это поможет

0 голосов
/ 26 февраля 2019

Вам нужно перебирать каждую строку в таблице и хранить данные построчно, а не только в одном гигантском списке.Попробуйте что-то вроде этого:

import pandas
import requests
from bs4 import BeautifulSoup
website_text = requests.get('https://en.wikipedia.org/wiki/List_of_postal_codes_of_Canada:_M').text
soup = BeautifulSoup(website_text,'xml')

table = soup.find('table',{'class':'wikitable sortable'})
table_rows = table.find_all('tr')

data = []
for row in table_rows:
    data.append([t.text.strip() for t in row.find_all('td')])

df = pandas.DataFrame(data, columns=['PostalCode', 'Borough', 'Neighbourhood'])
df = df[~df['PostalCode'].isnull()]  # to filter out bad rows

затем

>>> df.head()

  PostalCode           Borough     Neighbourhood
1        M1A      Not assigned      Not assigned
2        M2A      Not assigned      Not assigned
3        M3A        North York         Parkwoods
4        M4A        North York  Victoria Village
5        M5A  Downtown Toronto      Harbourfront
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...