Numpy логические условия для маркировки данных - PullRequest
0 голосов
/ 27 марта 2019

Я пытаюсь создать другой столбец метки, который основан на нескольких условиях в моих существующих данных

df

ind group people value value_50 val_minmax
 1     1    5    100    1        10
 1     2    2    90     1        na
 2     1    10   80     1        80
 2     2    20   40     0        na
 3     1    7    10     0        10
 3     2    23   30     0        na

import pandas as pd 
import numpy as np 

df = pd.read_clipboard()

Затем попытка нанести метку на строки в соответствии с условиями ниже

df['label'] = np.where(np.logical_and(df.group == 2, df.value_50 == 1, df.value > 50), 1, 0)

но это дает мне ошибку

TypeError: return arrays must be of ArrayType

Как это выполнить на питоне?

1 Ответ

2 голосов
/ 27 марта 2019

Используйте & между масками:

df['label'] = np.where((df.group == 2) & (df.value_50 == 1) & (df.value > 50), 1, 0)

Альтернатива:

df['label'] = ((df.group == 2) & (df.value_50 == 1) & (df.value > 50)).astype(int)

Ваше решение должно работать, если использовать reduce со списком логических масок:

mask = np.logical_and.reduce([df.group == 2, df.value_50 == 1, df.value > 50])
df['label'] = np.where(mask, 1, 0)
#alternative
#df['label'] = mask.astype(int)
...