График статистики данных инфраструктуры Pandas с указанием даты на пользователя - PullRequest
0 голосов
/ 04 января 2019

Я пытаюсь отобразить некоторые ежедневные статистические данные об использовании инфраструктуры с помощью Pandas, но я новичок и не могу понять это после многих часов исследований.

Вот мои типы данных на столбец:

Имя объекта UserService object ItemSize int64 ItemsCount int64 ExtractionDate datetime64 [нс]

Каждый день у меня есть новое извлечение для каждого пользователя, поэтому мне, вероятно, нужно использовать group_by перед началом печати. ​​

Образец данных:

          Name UserService  ItemSize  ItemsCount ExtractionDate
1   xyzf_s        xyfz        40           1     2018-12-12
2    xyzf1        xyzf        53           5     2018-12-12
3    xyzf2        xyzf        71           4     2018-12-12
4    xyzf3        xyzf        91           3     2018-12-12
14   vo12         vo          41           5     2018-12-12

Один из графиков, которые я пытаюсь отобразить, выглядит следующим образом:

ось х должна быть датой извлечения По оси Y должно быть количество элементов (оно делится на 1000, то есть на тысячи элементов от 1 до 100). Каждая строка на графике должна отражать эволюцию пользователя (чтобы посмотреть на всплески данных), я думаю, мне бы пришлось отображать топ-10 или 50, потому что было бы трудно иметь график из 1500 пользователей.

Меня также интересует любой другой способ использования этих данных для поиска увеличения данных и аномалий в потреблении данных.

1 Ответ

0 голосов
/ 04 января 2019

Предполагая, что пользователь отображается в столбцах имен, и на пользователя приходится только одна строка в день, чтобы получить график, который вы явно запрашиваете, вы можете использовать следующий код:

 # Limit to 10 users
 users_to_plot = df.Name.unique()[:10]
 for u in users_to_plot:
      mask = (df['Name'] == u)
      values = df[mask]
      plt.plot('ExtractionDate','ItemsCount',data=values.sort_values('ExtractionDate'))

Важно посмотреть на данные и подумать о том, какую информацию вы пытаетесь извлечь и как она выглядит. Вероятно, стоит сначала разобраться с некоторыми людьми и получить представление о том, что вы пытаетесь идентифицировать. Подумайте, что делает это уникальным, и если вы можете сделать это всплывающим на графике.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...