Я очищаю таблицу из Википедии, используя python.Я закончил с кодом, но у меня возникли некоторые проблемы при извлечении определенных столбцов в CSV и добавлении двойных апострофов.
Я хочу извлечь только следующие имена столбцов:
Kode BPS, Nama, Ibu Kota, Populasi, Luas, Pulau.
Вот результат таблицы:
![enter image description here](https://i.stack.imgur.com/KIszZ.png)
А вот мой код:
import requests
from bs4 import BeautifulSoup
import pandas as pd
URL = 'https://id.wikipedia.org/wiki/Demografi_Indonesia'
response = requests.get(URL)
soup = BeautifulSoup(response.text,'html.parser')
table = soup.find('table',{'class':'wikitable sortable'}).tbody
rows = table.find_all('tr')
columns = [v.text.replace('\n','') for v in rows[0].find_all('th')]
df = pd.DataFrame(columns=columns)
for i in range(1,len(rows)):
tds = rows[i].find_all('td')
if len(tds)==4:
values = [tds[0].text, tds[1].text, tds[2].text, tds[3].text.replace('\n',''.replace('\xa0',''))]
else:
values = [td.text.replace('\n',''.replace('\xa0','')) for td in tds]
df = df.append(pd.Series(values, index=columns), ignore_index=True)
#print(df)
df.to_csv(r'C:\Users\Desktop\'+'\\report.csv',index=False)