Используйте HIVE. Это проще, чем писать mapreduce в Java, и, возможно, я более знаком, чем PIG, так как это синтаксис, похожий на SQL.
https://cwiki.apache.org/confluence/display/Hive/Home
Что вам нужно сделать, это 1) установите клиент Hive на своем компьютере или 1 узле и укажите его в своем кластере.2) создать описание таблиц для этого файла 3) загрузить данные 4) написать SQL.Поскольку ваши данные выглядят как имя ученика, имя_представителя_1, субъекта-отметки2 и т. Д., Возможно, вам потребуется использовать explode https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-explode
2) CREATE TABLE студентов (имя STRING, subject1 INT, subject2 INT) СТРОК ФОРМАТА РАЗДЕЛЕННЫЕ ПОЛЯ, ПРЕКРАЩЕННЫЕ',' ХРАНЕНО КАК ПОСЛЕДОВАТЕЛЬНО;
3) ЗАГРУЗИТЬ ВХОД ДАННЫХ '/path/to/data/students.csv' INTO TABLE студентов;
4) ВЫБЕРИТЕ имя, AVG (subject1),AVG (subject2) ИЗ студентов GROUP BY name;
вывод может выглядеть следующим образом:
NAME |SUBJECT1 |ПРЕДМЕТ 2
Джон |6.2 |7,0
том |3,5 |5,0