Напишите программу MapReduce для агрегирования количества посещений для каждого IP-адреса.
Пример WordCount не сильно отличается от этого. В примере wordcount карта выдает («word», 1) после извлечения «word» из входных данных, в случае IP-адреса карта выдает («192.168.0.1», 1) после извлечения «« 192.168.0.1 » IP-адрес из файлов журнала.
Напишите другую программу MapReduce, чтобы найти K лучших IP-адресов с точки зрения посещений.
После завершения первого задания MapReduce будет много выходных файлов на основе числа редукторов с таким содержимым, как этот
<visits> <ip address>
Все эти файлы должны быть объединены с использованием опции getmerge . Опция getmerge объединит файл, а также получит файл локально.
Затем локальный файл должен быть отсортирован с помощью команды сортировки на основе 1-го столбца, который является числом посещений.
Затем с помощью команды head вы можете получить первые n строк, чтобы получить первые n IP-адресов по визитам.
Может быть лучше подходить ко второму MR Job.