Question

У меня есть pandas dataframe, который выглядит следующим образом:

Идентификатор столбца имеет уникальные целые числа, в то время как Cat содержит категориальные переменные.Теперь я хотел бы добавить два новых столбца с условиями о Cat.

Желаемый результат должен выглядеть следующим образом:

ID  Cat  New1   New2
87    A    67    36
56    A    67    76
67    A    56    36
76    D    36    56
36    D    76    67

Столбец New1: для каждой строки выберите случайный идентификатор сЖЕ Категория как текущий идентификатор строки, с заменами.Случайно выбранный идентификатор не должен совпадать с текущим идентификатором строки.

Столбец Новый2: для каждой строки выберите случайный идентификатор с РАЗНОЙ категорией, чем текущий идентификатор строки, с заменами.

Как я могу сделать это эффективно?

run-out · Answer 1 · 27 апреля 2019

Я пытался найти решение, используя векторы, но не смог.Это решение выполняет итерацию по индексу и вычисляет новые значения для New1 и New2.

Это достигнет результата, который, я полагаю, вы ищете.

for i in df.index:
    # Grab the category variable for each row.
    cat = df.loc[i,'Cat']

    # Set column New1
    mask1 = df['Cat'] == cat
    mask2 = df.index != i
    df.at[i,'New1']= df[mask1 & mask2]["ID"].sample().iloc[0]

    # Set column New2
    mask3 = df['Cat'] != cat
    df.at[i,'New2']= df[mask3]["ID"].sample().iloc[0]

print (df) 1-й:

 ID Cat  New1  New2
0  87   A  56.0  76.0
1  56   A  87.0  36.0
2  67   A  56.0  76.0
3  76   D  36.0  87.0
4  36   D  76.0  87.0

print (df) 2-й:

  ID Cat  New1  New2
0  87   A  67.0  36.0
1  56   A  87.0  36.0
2  67   A  87.0  76.0
3  76   D  36.0  67.0
4  36   D  76.0  67.0

Из этих результатов вы можете видеть, что вы получаетеслучайные результаты при использовании sample ().

Ethan · Answer 2 · 27 апреля 2019

Мой предыдущий ответ не правильно сгенерировал столбец "new1".Понимая, что действительное решение было опубликовано и принято, я публикую это, чтобы предложить альтернативу.

df = pd.DataFrame.from_dict({'ID':(87,56,67,76,36),'CAT':('A','A','A','D','D')})
df['New1'] = [np.random.choice(df[(df['CAT']==cat) & (df['ID']!=iden)]['ID']) for cat, iden in zip(df['CAT'],df['ID'])]
df['New2'] = [np.random.choice(df[df['CAT']!=cat]['ID']) for cat in df['CAT']]


In [11]: df
Out[12]: 
  CAT  ID  New1  New2
0   A  87    67    76
1   A  56    67    76
2   A  67    56    36
3   D  76    36    87
4   D  36    76    67

Создать новый столбец, заполненный случайными элементами, на основе категориального столбца

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Создать новый столбец, заполненный случайными элементами, на основе категориального столбца

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы