Я не специалист по искрам, поэтому приношу свои извинения, если я далеко.
Мы используем apache spark для одновременной обработки различных разделов большого файла. Нам не нужны агрегации результатов. Проблема, с которой мы сталкиваемся, заключается в том, что работник будет обрабатывать записи одну за другой, и мы хотели бы обрабатывать их группами. Мы можем собрать их в группы, но последняя группа не будет обработана, так как мы не получаем от spark информации о том, что она обрабатывает последнюю запись. Есть ли способ заставить spark вызывать что-либо после завершения обработки раздела, чтобы мы могли завершить обработку последней группы?
Или, может быть, совершенно другой подход к этому?
Мы используем Java, если вы решите предоставить несколько примеров кода.
Спасибо