Я хочу использовать Spark Structured Streaming для фильтрации потока Event Hub для разделения объектов разного типа (объекты JSON с разными схемами) и записи каждого типа объектов в свое собственное хранилище файлов.
Прав ли я, если предположить, что единственный поддерживаемый способ сделать это - создать ForeachWriter
, кэшировать микропакет и выполнить фильтрацию и запись в методе процесса?
Я не хочу создавать по одному потоку чтения на фильтрованный поток записи, что сильно ограничило бы емкость выхода из концентратора событий.