Я просто пытаюсь оценить HBase для некоторых вещей, которые мы делаем для анализа данных.
HBase будет содержать наши данные о событиях. Ключ будет eventId + время. Мы хотим провести анализ нескольких типов событий (4-5) в диапазоне дат. Общее количество типов событий около 1000.
Проблема с запуском задания mapreduce для таблицы hbase заключается в том, что initTableMapperJob (см. Ниже) занимает только 1 объект сканирования. По соображениям производительности мы хотим сканировать данные только для 4-5 типов событий в заданном диапазоне дат, а не для 1000 типов событий. Если мы используем метод ниже, то, я думаю, у нас нет такого выбора, потому что он занимает только 1 объект сканирования.
public static void initTableMapperJob (Строковая таблица,
Сканирование сканирования,
Класс маппер,
Класс outputKeyClass,
Класс outputValueClass,
org.apache.hadoop.mapreduce.Job job)
выдает IOException
Можно ли запустить mapreduce для списка проверяемых объектов? любой обходной путь?
Спасибо