Я хочу обработать все данные в семействе столбцов в задании MapReduce. Заказ не важен.
Подход состоит в том, чтобы перебрать все ключи строк семейства столбцов для использования в качестве входных данных. Это может быть узким местом и может быть заменено параллельным методом.
Я открыт для других предложений или для того, чтобы кто-то сказал мне, что я трачу свое время на эту идею. В настоящее время я расследую следующее:
Потенциально более эффективный способ состоит в том, чтобы назначать входные диапазоны вместо итерации по всем ключам строки (до запуска преобразователя). Поскольку я использую RandomPartitioner
, есть ли способ указать диапазон для запроса на основе MD5?
Например, я хочу разбить задачу на 16 заданий. Поскольку RandomPartitioner
основан на MD5 (из того, что я прочитал), я бы хотел запросить все, начиная с a
для первого диапазона. Другими словами, как бы я запросил get_range для MD5 с началом a
и завершением до b
. например a0000000000000000000000000000000 - afffffffffffffffffffffffffffffff
Я использую Pycassa API (Python), но я рад видеть примеры Java.