Нужно извлечь html ссылку в Jupyter - PullRequest
0 голосов
/ 23 апреля 2020

Я просмотрел столько репозиториев, сколько смог найти, и не хватает части для написания кода, который извлекает элементы со страницы Википедии, а также для каждого города.

    import pandas as pd
    url='https://en.wikipedia.org/wiki/List_of_cities_in_New_York'

    df=pd.read_html(url, header=0)[0]

    df.head()


    import pandas
    import requests
    from bs4 import BeautifulSoup
    website_text = requests.get('https://en.wikipedia.org/wiki/List_of_cities_in_New_York').text
    soup = BeautifulSoup(website_text,'xml')

    table = soup.find('table',{'class':'wikitable sortable'})

    table_rows = table.find_all('tr')

    data = []
         for row in table_rows:
              data.append([t.text.strip() for t in row.find_all('td')])
              df = pandas.DataFrame(data, columns=['City', 'PostalCode', 
                  'Population','IncorpDate','FIPS_Sub','FIPS_Place'])
              df = df[~df['PostalCode'].isnull()]  # to filter out bad rows
    df.head()

    df.to_csv('ny_cities22.csv', encoding='utf-8')

Я знаю, что это, вероятно, что-то мне не хватает, но я не могу понять код.

Спасибо.

...