У меня есть сценарий, где я должен записать несколько кадров данных в формате паркета. Я использовал это
df.write
.format("parquet")
.mode(<write-mode>)
.option("compression", "gzip")
.save(<file-path>)
Теперь у меня есть около 15 фреймов данных, которые будут записывать данные в паркет. Я вижу, что одновременно выполняется только одна задача (поэтому записывается только 1 кадр данных). Также, когда я проверил количество активных исполнителей в spark-ui, я вижу, что используется только 1 исполнитель
Мои вопросы:
- Можно ли выполнять параллельную запись нескольких фреймов данных в паркет (вместо последовательной записи)?