Установка наибольшего значения в ряду на 1 и отдыха до 0 в пандах - PullRequest
0 голосов
/ 25 мая 2018

Мой исходный фрейм данных выглядит следующим образом:

A       B       C
0.10    0.83    0.07
0.40    0.30    0.30
0.70    0.17    0.13    
0.72    0.04    0.24    
0.15    0.07    0.78    

Мне бы хотелось, чтобы каждая строка была преобразована в двоичную форму: 1 будет назначен столбцу с наибольшим значением, а остальные будут установлены в 0, поэтомупредыдущий кадр данных стал бы:

A   B   C
0   1   0
1   0   0
1   0   0   
1   0   0   
0   0   1   

Как это можно сделать?
Спасибо.

РЕДАКТИРОВАТЬ: я понимаю, что конкретный случай сделал мой вопрос неоднозначным.Я должен был сказать, что в случае, если 3 столбца равны для данной строки, я все еще хотел бы получить вектор [1 0 0], а не [1 1 1] для этой строки.

Ответы [ 3 ]

0 голосов
/ 26 мая 2018
 df.apply(lambda x: x == x.max(), axis=1).astype(int) 

должен это сделать.Это работает, проверяя, является ли значение максимальным для этого столбца, и затем приводя к целочисленному (True -> 1, False -> 0)

Вместо apply -извлечения лямбда-строки, онотакже возможно транспонировать фрейм данных и сравнить с max, а затем транспонировать обратно

(df.T == df.T.max()).T.astype(int)

И, наконец, очень быстрое решение на основе numpy:

pd.DataFrame((df.T.values == np.amax(df.values, 1)).T*1, columns = df.columns)

Вывод во всехслучаи:

   A  B  C
0  0  1  0
1  1  0  0
2  1  0  0
3  1  0  0
4  0  0  1
0 голосов
/ 26 мая 2018

Другой numpy метод, использующий np.where:

import numpy as np
new_df = pd.DataFrame(np.where(df.T == df.T.max(), 1, 0),index=df.columns).T
   A  B  C
0  0  1  0
1  1  0  0
2  1  0  0
3  1  0  0
4  0  0  1
0 голосов
/ 26 мая 2018

Использование numpy с argmax

m = np.zeros_like(df.values)
m[np.arange(len(df)), df.values.argmax(1)] = 1

df1 = pd.DataFrame(m, columns = df.columns).astype(int)

# Result


   A  B  C
0  0  1  0
1  1  0  0
2  1  0  0
3  1  0  0
4  0  0  1

Время

df_test = df.concat([df] * 1000)

def chris_z(df):
     m = np.zeros_like(df.values)
     m[np.arange(len(df)), df.values.argmax(1)] = 1
     return pd.DataFrame(m, columns = df.columns).astype(int)

def haleemur(df):
    return df.apply(lambda x: x == x.max(), axis=1).astype(int)

def haleemur_2(df):
    return pd.DataFrame((df.T == df.T.max()).T.astype(int), columns=df.columns)

def sacul(df):
    return pd.DataFrame(np.where(df.T == df.T.max(), 1, 0),index=df.columns).T

Результаты

In [320]: %timeit chris_z(df_test)
358 µs ± 1.08 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

In [321]: %timeit haleemur(df_test)
1.14 s ± 45.1 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

In [329]: %timeit haleemur_2(df_test)
972 µs ± 11.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)

In [333]: %timeit sacul(df_test)
1.01 ms ± 3.29 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...