Pandas read_csv () не читает столбец, содержащий веб-ссылки или любой столбец после - PullRequest
0 голосов
/ 18 июня 2020

Я пытаюсь удалить дубликаты из CSV, который я создал с помощью веб-сканирования, и использую следующее для создания CSV:

Greensboro_Parks = pd.DataFrame({"Mobile Home Park":pd.Series(company_names),"Phone Number":pd.Series(company_phone),"Website":pd.Series(website_link_list),"Street":pd.Series(company_street),"City/State":pd.Series(company_locale)})

Greensboro_Parks.to_csv('Greensboro_Mobile_Homes.csv', index = False, header = True)

Ссылка на CSV на Github (файл скриншота слишком большой): https://github.com/sdejewski10/Upwork_Mobile_Homes/blob/master/Greensboro_Mobile_Homes.csv

Когда я открываю новый файл и читаю CSV, он отображает только первые два столбца: «Парк мобильных домов» и «Номер телефона». Я попытался открыть файл CSV в Google Таблицах, и он также отображает только первые два столбца. Я пришел к выводу, что это, вероятно, связано с форматированием веб-ссылки, которая пытается быть прочитана в CSV?

Я пробовал использовать:

data = pd.read_csv('/Users/steve/Documents/Coding/Upwork/Mobile Homes/Greensboro_Mobile_Homes.csv', usecols = ['Mobile Home Park', 'Phone Number', 'Website', 'Street', 'City/State'], dtype= str)

OUTPUT: ValueError: Usecols do not match columns, columns expected but not found: ['Website', 'Street', 'City/State']

Я просмотрел: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html, но не смог понять, как отформатировать URL-адрес для чтения. Любые предложения приветствуются.

1 Ответ

0 голосов
/ 18 июня 2020

Вы экспортировали свой CSV-файл, используя header=True, поэтому вам не нужно указывать usecols при использовании read_csv. В общем случае, если имена столбцов указаны в файле CSV, вы можете использовать аргумент header, чтобы указать номер строки, соответствующий именам столбцов.

...