2)
Поскольку я не знаю вашу среду, я буду в безопасности, да - беспокоюсь о влиянии на производительность.
В зависимости от частоты и количества записываемых данных вы можете обнаружить, что они обрабатываются за приемлемое количество времени, особенно если вы просто пишете новые / измененные данные. [в зависимости от сложности ваших запросов]
Если вам не требуется режим реального времени или у ваших серверов обычно есть периоды, когда они используются недостаточно (в течение ночи?), Тогда вы можете создать файлы в это время.
В зависимости от того, как настроена ваша среда, вы можете реплицировать / регистрировать доставку на определенный сервер (ы) БД, единственной задачей которого является создание файла (ов) данных.
1011 *
*
3)
Вам не нужно разбивать файл, HDFS позаботится о разбиении файла данных на блоки и репликации по кластеру. По умолчанию он автоматически разбивается на блоки данных размером 64 МБ.
см. - Apache - Архитектура HDFS
re: Wojtek answer - SQOOP clicky (не работает в комментариях)
Если у вас есть дополнительные вопросы или информация о конкретной среде, сообщите нам
НТН
Ральф