Я пытаюсь объединить несколько столов, используя NiFi.Источником данных может быть MySQL или RedShift, возможно, что-то еще в будущем.В настоящее время я использую процессор ExecuteSQL для этого, но вывод находится в одном поточном файле.Следовательно, для терабайта данных это может не подходить.Я также пытался использовать generateTableFetch, но у этого нет опции соединения.
Вот мои вопросы:
- Есть ли альтернатива для процессора ExecuteSQL?
- Есть ли способ сделать вывод процессора ExecuteSQL в нескольких потоковых файлах?В настоящее время я могу разделить вывод ExecuteSQL с помощью процессора SplitAvro.Но я хочу, чтобы ExecuteSQL сам разбивал выходные данные
. GenerateTableFetch генерирует SQL-запросы на основе смещения.Замедлит ли это процесс, когда набор данных станет больше?
Пожалуйста, поделитесь своими мыслями.Заранее спасибо