Я выполняю задание ETL с Hadoop, где мне нужно вывести действительные преобразованные данные в HBase и внешний индекс для этих данных в MySQL. Сначала я подумал, что я мог бы использовать MultipleOutputFormats для экспорта преобразованных данных с помощью HFileOutputFormat (ключ - это текст, а значение - ProtobufWritable), а индекс - в TextOutputFormat (ключ - это текст, а значение - это текст).
Количество входных записей для задания среднего размера (мне понадобится возможность запускать много одновременно) составляет около 700 миллионов.
Мне интересно, если A) это кажется разумным подходом с точки зрения эффективности и сложности, и B) как это сделать с помощью API дистрибутива CDH3, если это возможно.