Question

У меня есть датафрейм, содержащий информацию об элементах рейтинга пользователей за определенный период времени.Он имеет следующее подобие:

В кадре данных у меня есть ряд строк с одинаковыми «user_id» и «business_id», которые я получаю, используя следующий код:

mask = reviews_df.duplicated(subset=['user_id','business_id'], keep=False) 
dup = reviews_df[mask]

получая что-то вроде этого:

Теперь мне нужно удалить все такие дубликаты из исходного кадра данных и заменить их средним значением.Есть ли быстрый и элегантный способ добиться этого? Спасибо!

Alimantu · Answer 1 · 24 сентября 2019

Se, если у вас есть датафрейм, выглядит как

   review_id  user_id  business_id  stars        date
0          1        0            3    2.0  2019-01-01
1          2        1            3    5.0  2019-11-11
2          3        0            2    4.0  2019-10-22
3          4        3            4    3.0  2019-09-13
4          5        3            4    1.0  2019-02-14
5          6        0            2    5.0  2019-03-17

Тогда решение должно быть примерно таким:

df.loc[df.duplicated(['user_id', 'business_id'], keep=False)]\
  .groupby(['user_id', 'business_id'])\
  .apply(lambda x: x.stars - x.stars.mean())

со следующим результатом:

user_id  business_id   
0        2            2   -0.5
                      5    0.5
3        4            3    1.0
                      4   -1.0

Панды вычисляют среднее значение столбца для строк, удовлетворяющих условию

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Панды вычисляют среднее значение столбца для строк, удовлетворяющих условию

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов