Я нашел это, но он требует использовать MySQL как на входе, так и на выходе, в то время как он нужен только на выходе.
InputFormat (DBInputFormat) не зависит от OutputFormat (DBOutputFormat). Должна быть предусмотрена возможность чтения из HBase в Mapper и записи в DB в редукторе.
С помощью нового API-интерфейса MR установите Job # setInputFormat и Job # setOutputFormat, при этом старый API-интерфейс MR установите JobConf # setInputFormat и JobConf # setOutputFormat соответственно тому, какой формат ввода / вывода требуется. Оба эти формата не должны быть одинаковыми. Должна быть предусмотрена возможность чтения из XML в преобразователе и, при необходимости, записи в очередь в редукторе.
Кроме того, приведенная выше ссылка использует некоторые устаревшие классы из пакета org.apache.hadoop.mapred, для которого сейчас доступен новый пакет org.apache.hadoop.mapreduce, однако я не могу найти учебник с использованием этого нового пакета до Теперь.
Если вам не безразличен старый API, используйте его. Существует небольшая разница в функциональности между новым и старым API. Есть два DBInputFormat для старого и нового API. Убедитесь, что вы не смешиваете старые / новые InputFormats со старым / новым MR API.
Вот учебник по новому API.