У меня есть данные о пользователях, независимо от того, зарегистрировались они или нет, и прогноз модели относительно того, зарегистрировались они или нет.Я хочу найти для каждого пользователя: TP (они зарегистрировались, и модель предсказала, что они сделали), FP (они не зарегистрировались, но модель предсказала, что они сделали), FN (они зарегистрировались, но модель не предсказала нет), иTN (они не подписались, и модель предсказала нет).Здесь 1 означает, что они зарегистрировались, а 0 - нет.Я хочу группировать пользователей, а затем выполнять сравнения, используя два других столбца.Например, у меня может быть что-то вроде следующего:
Users | Signed_up | Prediction |
User1 1 0
User2 0 0
User1 1 1
User3 1 1
User2 0 1
User2 0 0
...
For TP, the resulting table might look something like:
Users | TP |
User1 1
User2 0
User3 1
For TN, the resulting table might look something like:
Users | TN |
User1 0
User2 1
User3 0
and so on for FP and FN.
Я предполагаю, что я группирую по столбцу Users
и использую лямбда-функцию для сравнения столбцов Sign_up
и Prediction
, но яЯ не уверен, как на самом деле это сделать.Буду признателен за любую помощь!