Я работаю над делом по машинному обучению, обнаружившему мошенничество в транзакциях. Я группирую людей и их коэффициент мошенничества в каждой транзакции. Я использую их электронные письма, потому что это определяет людей. На листе 160 тысяч строк. Когда я группирую их так:
data['ratebymail']=pd.DataFrame(data.groupby('EMAIL')['ISFRAUD'].mean())
Есть две проблемы. Данные ['ratebymail'] возвращают NaN для каждого электронного письма. Вторая проблема - данные в 90 тыс. Строк. Каждое письмо имеет 1 значение, но в оригинальном наборе оно должно быть 160 КБ с дубликатами. Для второго вхождения в наборе данных я должен назначить тот же коэффициент мошенничества этому лицу в другой транзакции. Порядок также важен, поэтому я не могу его добавить.
i = 0
ratebymail = []
for mail in data['EMAIL']:
for other_mail in other_mails:
if mail == other_mail:
ratebymail[i] = ratios[j]
i += 1
Я пробовал что-то подобное, но я так растерялся, что не смог закончить sh код. Я отчаянно нуждаюсь в помощи. Спасибо!
Редактировать: Ошибка ввода.