Я застрял на домашнем задании на несколько дней и решил попросить помощи у StackOverflow. У меня есть большой файл CSV, содержащий список людей, их роль и зарплату.
Некоторые зарплаты были искусственно завышены, и мне нужно их найти. Вот пример скриншота файла.
Полагаю, способ сделать это - определить область, в которой зарплаты считаются «нормальными» для каждой роли. Как я могу это сделать ? Я не изучаю статистику, я не знаю, следует ли мне использовать стандартное отклонение для определения среднего значения для каждой роли ...
Что бы вы сделали?
Мой CSV-файлдоступно через Hive в кластере Hadoop (Cloudera QuickStart VM). Я могу использовать язык, который хочу решить эту проблему.
Я впервые работаю над Hadoop и Hive. Я знаю только веб-языки, такие как JS / PHP, поэтому я очень незнаком с такими проблемами.