Я пытаюсь отобразить некоторые ежедневные статистические данные об использовании инфраструктуры с помощью Pandas, но я новичок и не могу понять это после многих часов исследований.
Вот мои типы данных на столбец:
Имя объекта UserService object
ItemSize int64 ItemsCount int64
ExtractionDate datetime64 [нс]
Каждый день у меня есть новое извлечение для каждого пользователя, поэтому мне, вероятно, нужно использовать group_by перед началом печати.
Образец данных:
Name UserService ItemSize ItemsCount ExtractionDate
1 xyzf_s xyfz 40 1 2018-12-12
2 xyzf1 xyzf 53 5 2018-12-12
3 xyzf2 xyzf 71 4 2018-12-12
4 xyzf3 xyzf 91 3 2018-12-12
14 vo12 vo 41 5 2018-12-12
Один из графиков, которые я пытаюсь отобразить, выглядит следующим образом:
ось х должна быть датой извлечения
По оси Y должно быть количество элементов (оно делится на 1000, то есть на тысячи элементов от 1 до 100).
Каждая строка на графике должна отражать эволюцию пользователя (чтобы посмотреть на всплески данных), я думаю, мне бы пришлось отображать топ-10 или 50, потому что было бы трудно иметь график из 1500 пользователей.
Меня также интересует любой другой способ использования этих данных для поиска увеличения данных и аномалий в потреблении данных.