В моей базе данных есть несколько таблиц, где каждая таблица имеет свой тип сущности. У меня есть схема Avro, которую я использую в hadoop, которая представляет собой объединение всех полей этих разных типов сущностей плюс поле типа сущности.
То, что я хотел бы сделать, это нечто вроде установки DBInputFormat с DBWritable для каждого типа сущности, который отображает тип сущности в комбинированный тип Avro. Затем передайте каждому DBInputFormat что-то вроде MultipleInputs, чтобы я мог создать составной формат ввода. Составной входной формат может быть передан моей работе по сокращению карты, чтобы все данные из всех таблиц могли обрабатываться одновременно одним и тем же классом отображения.
Данные постоянно добавляются в эти таблицы базы данных, поэтому мне нужно иметь возможность настроить DBInputFormat для каждого типа сущности / dbtable, чтобы только получать новые данные и правильно выполнять разбиения.
В основном мне нужны функциональные возможности DBInputFormat или DataDrivenDBInputFormat, но также возможность составлять их, аналогично тому, что вы можете делать с путями и множественными входами.