Я пытаюсь удалить дубликаты из CSV, который я создал с помощью веб-сканирования, и использую следующее для создания CSV:
Greensboro_Parks = pd.DataFrame({"Mobile Home Park":pd.Series(company_names),"Phone Number":pd.Series(company_phone),"Website":pd.Series(website_link_list),"Street":pd.Series(company_street),"City/State":pd.Series(company_locale)})
Greensboro_Parks.to_csv('Greensboro_Mobile_Homes.csv', index = False, header = True)
Ссылка на CSV на Github (файл скриншота слишком большой): https://github.com/sdejewski10/Upwork_Mobile_Homes/blob/master/Greensboro_Mobile_Homes.csv
Когда я открываю новый файл и читаю CSV, он отображает только первые два столбца: «Парк мобильных домов» и «Номер телефона». Я попытался открыть файл CSV в Google Таблицах, и он также отображает только первые два столбца. Я пришел к выводу, что это, вероятно, связано с форматированием веб-ссылки, которая пытается быть прочитана в CSV?
Я пробовал использовать:
data = pd.read_csv('/Users/steve/Documents/Coding/Upwork/Mobile Homes/Greensboro_Mobile_Homes.csv', usecols = ['Mobile Home Park', 'Phone Number', 'Website', 'Street', 'City/State'], dtype= str)
OUTPUT: ValueError: Usecols do not match columns, columns expected but not found: ['Website', 'Street', 'City/State']
Я просмотрел: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html, но не смог понять, как отформатировать URL-адрес для чтения. Любые предложения приветствуются.