Мне нужно передать большое количество csv
файлов в качестве источника, каждый из которых содержит заголовок, содержащий важную информацию для классификации остальных данных, которые следуют.
Каков наилучший способ создать потоковое решение, которое будет включать данные заголовка для каждой строки, которая следует в системе распределенной обработки apache spark?
Проблема может заключаться в том, что заголовок может быть подхвачен любым из исполнителей в случае разделения обработки файла.