Question

Было много сообщений, касающихся разбиения одного столбца на несколько, но я не смог найти ответ на небольшую модификацию идеи разделения.

Когда вы используете str.split, строка разбивается независимо от порядка.Вы можете изменить его, чтобы он был немного более сложным, например, упорядочив его, отсортировав по алфавиту

ex dataframe (df)

     row
0    a, e, c, b
1    b, d, a
2    a, b, c, d, e
3    d, f

foo = df['row'].str.split(',')

разделится на запятую и вернет:

     0     1    2    3
0    a     e    c    b
....

Однако это не выравнивает результаты по их уникальному значению.Даже если вы используете сортировку по разделенной строке, это все равно приведет только к этому:

     0    1    2    3    4    5
0    a    b    c    e
1    a    b    d
...

, тогда как я хочу, чтобы это выглядело так:

     0    1    2    3    4    5
0    a    b    c         e
1    a    b         d
2    a    b    c    d    e   
...

Я знаю, что я 'Я что-то упустил.Нужно ли сначала добавить столбцы, а затем отобразить значения разделения на правильный столбец?Что если вы не знаете всех уникальных ценностей?Все еще изучаю синтаксис панд, поэтому любые указатели в правильном направлении будут оценены.

WeNYoBen · Answer 1 · 21 мая 2018

Использование get_dummies

s=df.row.str.get_dummies(sep=' ,')
s.mul(s.columns)
Out[239]: 
   a  b  c  d  e  f
0  a  b  c     e   
1  a  b     d      
2  a  b  c  d  e   
3           d     f

расширенное разделение панд запятой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

расширенное разделение панд запятой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов