Я делаю фиктивный набор данных со списком компаний в виде user_id, задания, публикуемые каждой компанией в виде job_id и c_id в качестве идентификатора кандидата.Я уже выполнил первые два шага, и мой набор данных выглядит следующим образом.
user_id job_id
0 HP HP2
1 Microsoft Microsoft4
2 Accenture Accenture2
3 HP HP0
4 Dell Dell4
5 FIS FIS1
6 HP HP0
7 Microsoft Microsoft4
8 Dell Dell2
9 Accenture Accenture0
Также они перетасованы.Теперь я хочу добавить случайный идентификатор кандидата в этот набор данных таким образом, чтобы c_id не повторялся для конкретного job_id.
Мой подход к этому заключается в следующем.joblist - это список всех job_ids.
for i in range(50):
l = list(range(0,len(df[df['job_id'] == joblist[i]])))
random.shuffle(l)
df['c_id'][df['job_id'] == joblist[i]] = l
, после чего я протестировал его как
len (df ['c_id'] [df ['job_id '] == joblist [0]])
output = 168
df [' c_id '] [df [' job_id '] == список вакансий [0]]. nunique ()
output = 101
и то же самое происходит со всеми значениями.Я перепроверил уникальность l
после каждого шага и его 168 уникальных значений.Что я здесь не так делаю?