Я хочу очистить этот набор данных в Pandas, но я не уверен, что делать с этим.
Я использовал файл json, чтобы преобразовать его в csv, но у меня все еще есть строки, в которых есть словарь-как объекты в них.Заголовок всегда в первом ряду.Я пытаюсь создать сопоставление (присутствует -> 1, другое -> 0, пусто -> NaN) для выполнения регрессии и некоторого другого анализа.
Столбец a:
attribute_Alcohol
full_bar
none
beer_and_wine
Я хочу создать два столбца с заголовками:
full_bar
1
NaN
0
(аналогичный столбец для beer_and_wine с элементами строки: 0, NaN, 1)
Столбец b:
attribute_Ambience
NaN
{'romantic': False, 'intimate': False, 'classy': False, 'hipster': False, 'touristy': False, 'trendy': False, 'upscale': False, 'casual': False}
Квосемь отдельных колонок как романтические, интимные, стильные, ... повседневные.
Колонка C:
категории
Туры, Пивоварни, Пицца, Рестораны, Еда, Гостиницы и Путешествия
Куриные крылышки, Бургеры, Рестораны, Уличные торговцы, Барбекю, Тележки с едой,
Еда, Рестораны, Организация мероприятий
Завтрак и Бранч, Рестораны, Французские,Бутерброды, Кафе
По сути то же самое, что и выше, но форматирование другое (через запятую, но не в виде списка).
У меня около 200 тыс. Строк, но не могу, ради любвиБоже, разберись, как:
- Создать правильные заголовки столбцов
- Преобразовать эти строки (Python считает, что они плавающие - возможно, потому что первая строка пуста, а не NaN) вПравильно True, False или NaN во вновь создаваемых столбцах.
Надеюсь, это имеет смысл. Вот ссылка на образец CSV, чтобы лучше понять.