Я ценю, что это старый поток, однако, если кто-то еще хотел сделать то же самое, я нашел очень простой и короткий способ сделать это, импортировав модуль wikipedia
python, а затем используя pandas 'read_html
положить его в кадре данных.Оттуда вы можете применить любой объем анализа, который пожелаете.
Вот мой код, который вызывается из командной строки:
Просто позвоните по python yourfile.py -p Wikipedia_Page_Article_Here
import pandas as pd
import argparse
import wikipedia as wp
parser = argparse.ArgumentParser()
parser.add_argument("-p", "--wiki_page", help="Give a wiki page to get table", required=True)
args = parser.parse_args()
html = wp.page(args.wiki_page).html().encode("UTF-8")
try:
df = pd.read_html(html)[1] # Try 2nd table first as most pages contain contents table first
except IndexError:
df = pd.read_html(html)[0]
print(df.to_string())
Надеюсь, это кому-нибудь поможет!
ИЛИ без аргументов командной строки:
import pandas as pd
import wikipedia as wp
html = wp.page("List_of_video_games_considered_the_best").html().encode("UTF-8")
try:
df = pd.read_html(html)[1] # Try 2nd table first as most pages contain contents table first
except IndexError:
df = pd.read_html(html)[0]
print(df.to_string())