Очистка этого набора данных в Пандах? - PullRequest
0 голосов
/ 25 октября 2018

Я хочу очистить этот набор данных в Pandas, но я не уверен, что делать с этим.

Я использовал файл json, чтобы преобразовать его в csv, но у меня все еще есть строки, в которых есть словарь-как объекты в них.Заголовок всегда в первом ряду.Я пытаюсь создать сопоставление (присутствует -> 1, другое -> 0, пусто -> NaN) для выполнения регрессии и некоторого другого анализа.

Столбец a:

attribute_Alcohol

full_bar

none

beer_and_wine

Я хочу создать два столбца с заголовками:

full_bar

1

NaN

0

(аналогичный столбец для beer_and_wine с элементами строки: 0, NaN, 1)

Столбец b:

attribute_Ambience

NaN

{'romantic': False, 'intimate': False, 'classy': False, 'hipster': False, 'touristy': False, 'trendy': False, 'upscale': False, 'casual': False}

Квосемь отдельных колонок как романтические, интимные, стильные, ... повседневные.

Колонка C:

категории

Туры, Пивоварни, Пицца, Рестораны, Еда, Гостиницы и Путешествия

Куриные крылышки, Бургеры, Рестораны, Уличные торговцы, Барбекю, Тележки с едой,

Еда, Рестораны, Организация мероприятий

Завтрак и Бранч, Рестораны, Французские,Бутерброды, Кафе

По сути то же самое, что и выше, но форматирование другое (через запятую, но не в виде списка).

У меня около 200 тыс. Строк, но не могу, ради любвиБоже, разберись, как:

  1. Создать правильные заголовки столбцов
  2. Преобразовать эти строки (Python считает, что они плавающие - возможно, потому что первая строка пуста, а не NaN) вПравильно True, False или NaN во вновь создаваемых столбцах.

Надеюсь, это имеет смысл. Вот ссылка на образец CSV, чтобы лучше понять.

...