Вы можете попытаться сохранить все файлы данных в одной папке и создать внешнюю таблицу HIVE поверх этих файлов.Предполагая, что это CSV-файл и все ваши 10000 файлов имеют одинаковую структуру, тогда создание внешней таблицы кустов поможет вам в вашем запросе.
Во внешней таблице;вы можете игнорировать заголовки, используя свойства tbl, как показано ниже:
CREATE EXTERNAL TABLE <tableName>(
col1 string,
col2 int
....
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
LOCATION '<hdfs location of your files>'
tblproperties ("skip.header.line.count"="1")
На данном этапе у вас будет таблица со всем вашим набором данных (неформатированная).Позже вы можете создать другую таблицу или представления поверх вашей внешней таблицы, где вы можете отформатировать данные в соответствии с требованиями.В улье есть несколько функций для достижения желаемого результата.
Надеюсь, это поможет:)
Примечание. В этом решении не используется искра.