У меня есть данные, которые будут запускаться в режиме pig с использованием aws emr.Столбцы называются модель, год, единицы измерения, общее количество покупателей.
chevy 1900 1000 49
chevy 1901 73 92
chevy 1902 45 65
chevy 1903 300 75
ford 1900 35 12
ford 1901 777 32
ford 1902 932 484
ford 1903 33 15
Я пытаюсь вычислить среднее значение для каждого типа автомобиля.средние значения будут рассчитаны путем сложения суммы единиц_проданности, деленной на сумму итоговых клиентов.поэтому желаемый результат будет выглядеть как
chevy (1000+73+45+300) / (49+92+65+75) = 5.04
ford (35+777+932+33) / (12+32+484+15) = 3.27
в моем скрипте, у меня есть
A = *Step to load data*;
B = GROUP A by year;
C = results = FOREACH B GENERATE SUM(units_sold)/SUM(total_customers);
dump C;
Это возвращает неверный результат. Как я могу получить результаты, которые выглядят как
chevy 5.04
ford 3.27