Вычислить среднюю загрузку для каждого пользователя в день (CRANLOGFILE) - PullRequest
0 голосов
/ 06 февраля 2019

Моя цель - подсчитать среднее количество загрузок для каждого пользователя в день.Набор данных представляет собой файл журнала от CRAN.

Структура данных, импортированных в apache pig:

{date: chararray,time: chararray,size: int,r_version: chararray,r_arch: chararray,r_os: chararray,package: chararray,version: chararray,country: chararray,ip_id: int}

Попытка вычислить среднее значение для пользователя (см. Код), но получить общее значение.

data = LOAD '/assignment/input/RLogFiles' using org.apache.pig.piggybank.storage.CSVExcelStorage(',', 'NO_MULTILINE', 'NOCHANGE', 'SKIP_INPUT_HEADER') AS (date:chararray,time:chararray,size:int,r_version:chararray,r_arch:chararray,r_os:chararray,package:chararray,version:chararray,country:chararray,ip_id:int);

average_user = FOREACH data GENERATE date,ip_id, package;

byDate_ip = GROUP average_user BY (date,ip_id);

packages_perday = FOREACH byDate_ip GENERATE FLATTEN(group) AS (date,ip_id), COUNT(average_user);

groupCount = GROUP packages_perday all;

average = FOREACH groupCount GENERATE AVG(packages_perday.$1);

Получение результата обратно среднего по всем клиентам (например, 2536,12), но хотел получить среднее значение каждого пользователя в день.

...