Создайте столбец в кадре данных, который представляет собой строку символов, обобщающую данные в других столбцах - PullRequest
0 голосов
/ 27 ноября 2018

У меня есть такой фрейм данных, где столбцы представляют собой оценки некоторых метрик:

A B C D  
4 3 3 1  
2 5 2 2  
3 5 2 4  

Я хочу создать новый столбец, чтобы суммировать, по каким метрикам каждая строка набрала больше заданного порогового значения, используяимя столбца в виде строки.Поэтому, если бы порог был A> 2, B> 3, C> 1, D> 3, я бы хотел, чтобы новый столбец выглядел так:

A B C D NewCol  
4 3 3 1 AC  
2 5 2 2 BC  
3 5 2 4 ABCD  

Я попытался использовать серию np.where

1008

и т. Д.

но понял, что результат перезаписывался последней метрикой всякий раз, когда все четыре метрики не удовлетворяли условиям, например так:

A B C D NewCol  
4 3 3 1 C  
2 5 2 2 C  
3 5 2 4 ABCD  

Я почти уверен, что есть более простой и правильныйспособ сделать это.

Ответы [ 3 ]

0 голосов
/ 27 ноября 2018

Еще одна опция, которая работает в виде массива.Было бы интересно сравнить производительность.

import pandas as pd
import numpy as np

# Data to test.

data = pd.DataFrame(
    [
        [4, 3, 3, 1],
        [2, 5, 2, 2],
        [3, 5, 2, 4]
    ]
    , columns = ['A', 'B', 'C', 'D']
)

# Series to hold the thresholds.

thresholds = pd.Series([2, 3, 1, 3], index = ['A', 'B', 'C', 'D'])

# Subtract the series from the data, broadcasting, and then use sum to concatenate the strings.

data['result'] = np.where(data - thresholds > 0, data.columns, '').sum(axis = 1)

print(data)

Дает:

   A  B  C  D result
0  4  3  3  1     AC
1  2  5  2  2     BC
2  3  5  2  4   ABCD
0 голосов
/ 27 ноября 2018

Использование dot

s=pd.Series([2,3,1,3],index=df.columns)
df.gt(s,1).dot(df.columns)
Out[179]: 
0      AC
1      BC
2    ABCD
dtype: object

#df['New']=df.gt(s,1).dot(df.columns)
0 голосов
/ 27 ноября 2018

Вы можете сделать:

import pandas as pd

data = [[4, 3, 3, 1],
        [2, 5, 2, 2],
        [3, 5, 2, 4]]

df = pd.DataFrame(data=data, columns=['A', 'B', 'C', 'D'])

th = {'A': 2, 'B': 3, 'C': 1, 'D': 3}

df['result'] = [''.join(k for k in df.columns if record[k] > th[k]) for record in df.to_dict('records')]

print(df)

Вывод

   A  B  C  D result
0  4  3  3  1     AC
1  2  5  2  2     BC
2  3  5  2  4   ABCD
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...