Поиск ненормально высоких значений в списке с помощью Hadoop / Hive - PullRequest
0 голосов
/ 10 октября 2019

Я застрял на домашнем задании на несколько дней и решил попросить помощи у StackOverflow. У меня есть большой файл CSV, содержащий список людей, их роль и зарплату.

Некоторые зарплаты были искусственно завышены, и мне нужно их найти. Вот пример скриншота файла. Screenshot

Полагаю, способ сделать это - определить область, в которой зарплаты считаются «нормальными» для каждой роли. Как я могу это сделать ? Я не изучаю статистику, я не знаю, следует ли мне использовать стандартное отклонение для определения среднего значения для каждой роли ...

Что бы вы сделали?

Мой CSV-файлдоступно через Hive в кластере Hadoop (Cloudera QuickStart VM). Я могу использовать язык, который хочу решить эту проблему.

Я впервые работаю над Hadoop и Hive. Я знаю только веб-языки, такие как JS / PHP, поэтому я очень незнаком с такими проблемами.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...