Выскабливание википедии - PullRequest
       30

Выскабливание википедии

0 голосов
/ 26 декабря 2018

Я хочу удалить таблицу из Википедии, но я сталкиваюсь с трудностями.

  1. На этом сайте (https://en.wikipedia.org/wiki/List_of_chemical_elements), Я хочу импортировать весь список как фрейм данных.
  2. На этом веб-сайте (https://en.wikipedia.org/wiki/Hydrogen), Я хочу импортировать данные сводной таблицы в правой части страницы.

Как мне лучше всего это сделать? Заранее спасибо!

Ответы [ 2 ]

0 голосов
/ 26 декабря 2018

Вы можете попробовать с пандами, как показано ниже

>>>import pandas as pd

>>>table = pd.read_html('https://en.wikipedia.org/wiki/List_of_chemical_elements')

>>>table[1]
0 голосов
/ 26 декабря 2018

Мне удалось найти ответ на мой первый вопрос.Спасибо всем.

summary_url = 
requests.get('https://en.wikipedia.org/wiki/List_of_chemical_elements').text
summary_soup = bs(summary_url,'html')
summary_table = summary_soup.find('table',{'class':'wikitable sortable collapsible'})

array = []

rows = summary_table.findAll('tr')
header = [col.text for col in rows[1].findAll('th')]

for row in rows[2:-1]:
    tmp_row = []
    for column in row.findAll('td'):
        tmp_row.append(column.text)
    array.append(tmp_row)

df_raw = pd.DataFrame(array, columns=header)
...