У меня есть файл CSV, которым я использую Pandas DataFrame для манипуляции. У меня есть данные твитов, и я пытаюсь объединить ячейки в соответствии с датой, но также добавить дополнительный столбец, который отображает количество твитов за определенный день. Например:
Пример исходного кадра данных:
date mentions photos replies retweets likes polarity
2011-04-01 0 1 10 5 10 0.1
2011-04-01 1 1 5 3 20 -0.3
2011-04-02 2 0 15 2 5 0.5
2011-04-02 3 0 0 4 100 -0.5
2011-04-02 0 1 2 1 50 0.9
2011-04-03 1 1 1 2 2 0.2
Ожидаемый выходной кадр данных:
date mentions photos replies retweets likes polarity counts
2011-04-01 1 2 15 8 30 -0.2 2
2011-04-02 5 1 17 7 155 0.9 3
2011-04-03 1 1 1 2 2 0.2 1
Обычно я использовал бы pd.DataFrame().groupby(['date']).sum()
, и он объединял бы ячейки в соответствии с датой, а также суммировал значения других столбцов, но теперь я хотел бы добавить дополнительный столбец справа, считая количество твитов. Я надеюсь, что я достаточно ясно, но если нет, пожалуйста, дайте мне знать.
Есть ли встроенная библиотека, которая позаботится об этом, или мне придется кодировать ее вручную?
Спасибо.