Нормализовать данные для анализа тенденций - PullRequest
0 голосов
/ 14 июня 2019

Я пытаюсь проанализировать и нормализовать следующее.В каждой строке есть компьютер с номером времени, в течение которого он падал в течение дня.Строка также имеет номер версии.

Версия компьютера обновляется с течением времени.

Цель состоит в том, чтобы увидеть тенденции числа сбоев с течением времени И, если обновление числа вызвало более или менее сбои.

Вот как выглядят данные.

date    computer    version times_crashed   
d1      c1          v1      2   
d2      c1          v1      5   
d1      c2          v1      1   
d3      c3          v2      0   
d3      c4          v2      3   
d3      c5          v2      2   
d4      c5          v2      1   
d5      c5          v2      1   
d6      c4          v2      1   
d6      c1          v2      2   


version computer_count  disticnt_computer_count crash_count crash_per_computer
v1      3               2                       6           3
v2      7               4                       10          2.5

Я хотел бы получить количество сбоев на компьютер.

как нормализовать данные, сохраняя общее количествоколичество компьютеров в виду?Это правильный способ расчета?

Должен ли я использовать общее количество компьютеров, отдельных компьютеров или компьютеров с проблемами для его нормализации?

...