Создать новый столбец, заполненный случайными элементами, на основе категориального столбца - PullRequest
3 голосов
/ 26 апреля 2019

У меня есть pandas dataframe, который выглядит следующим образом:

ID  Cat
87    A 
56    A 
67    A  
76    D  
36    D 

Идентификатор столбца имеет уникальные целые числа, в то время как Cat содержит категориальные переменные.Теперь я хотел бы добавить два новых столбца с условиями о Cat.

Желаемый результат должен выглядеть следующим образом:

ID  Cat  New1   New2
87    A    67    36
56    A    67    76
67    A    56    36
76    D    36    56
36    D    76    67

Столбец New1: для каждой строки выберите случайный идентификатор сЖЕ Категория как текущий идентификатор строки, с заменами.Случайно выбранный идентификатор не должен совпадать с текущим идентификатором строки.

Столбец Новый2: для каждой строки выберите случайный идентификатор с РАЗНОЙ категорией, чем текущий идентификатор строки, с заменами.

Как я могу сделать это эффективно?

Ответы [ 2 ]

1 голос
/ 27 апреля 2019

Я пытался найти решение, используя векторы, но не смог.Это решение выполняет итерацию по индексу и вычисляет новые значения для New1 и New2.

Это достигнет результата, который, я полагаю, вы ищете.

for i in df.index:
    # Grab the category variable for each row.
    cat = df.loc[i,'Cat']

    # Set column New1
    mask1 = df['Cat'] == cat
    mask2 = df.index != i
    df.at[i,'New1']= df[mask1 & mask2]["ID"].sample().iloc[0]

    # Set column New2
    mask3 = df['Cat'] != cat
    df.at[i,'New2']= df[mask3]["ID"].sample().iloc[0]

print (df) 1-й:

 ID Cat  New1  New2
0  87   A  56.0  76.0
1  56   A  87.0  36.0
2  67   A  56.0  76.0
3  76   D  36.0  87.0
4  36   D  76.0  87.0

print (df) 2-й:

  ID Cat  New1  New2
0  87   A  67.0  36.0
1  56   A  87.0  36.0
2  67   A  87.0  76.0
3  76   D  36.0  67.0
4  36   D  76.0  67.0

Из этих результатов вы можете видеть, что вы получаетеслучайные результаты при использовании sample ().

0 голосов
/ 27 апреля 2019

Мой предыдущий ответ не правильно сгенерировал столбец "new1".Понимая, что действительное решение было опубликовано и принято, я публикую это, чтобы предложить альтернативу.

df = pd.DataFrame.from_dict({'ID':(87,56,67,76,36),'CAT':('A','A','A','D','D')})
df['New1'] = [np.random.choice(df[(df['CAT']==cat) & (df['ID']!=iden)]['ID']) for cat, iden in zip(df['CAT'],df['ID'])]
df['New2'] = [np.random.choice(df[df['CAT']!=cat]['ID']) for cat in df['CAT']]


In [11]: df
Out[12]: 
  CAT  ID  New1  New2
0   A  87    67    76
1   A  56    67    76
2   A  67    56    36
3   D  76    36    87
4   D  36    76    67
...