Книга Hadoop: полное руководство - хорошее место для начала. Вводные главы должны быть действительно полезны для вас, чтобы выяснить, где MapReduce полезен и когда вы должны его использовать. Более продвинутые главы содержат множество более реалистичных примеров, чем количество слов.
Если вы хотите погрузиться глубже, вы можете проверить Интенсивная обработка текста с помощью MapReduce . Это определенно имеет множество «реальных» вариантов использования, но не похоже, что вы заинтересованы в обработке текста.
Для вашего конкретного примера, основные вещи, которые нужно реализовать:
- Фаза карты в основном предназначена для анализа, преобразования данных и фильтрации данных. Подумайте, подход «запись за записью», «ничего не делится» в обработке записей. В подсчете слов это анализ строки и разделение слов.
- Фаза сокращения - это все об агрегации: подсчет, усреднение, мин / макс и т. Д. При подсчете слов это подсчет экземпляров слова.
Таким образом, если вы хотите, чтобы все записи для данного продукта в мае месяце, вы могли бы использовать задание только для карты, чтобы отфильтровать все данные и сохранить только те записи, которые вы хотите. Тем не менее, вы действительно должны прочитать о том, для чего нужен Hadoop. Вопрос, который больше подходил бы Hadoop, был бы следующим: подсчитайте, сколько раз каждый предмет покупался в месяц (возможно, для построения матрицы). Очень редко вы ищете конкретные записи, которые вы предлагаете.
Если вы ищете платформу доступа в режиме реального времени, вы должны проверить HBase , как только вы закончите изучать Hadoop.