Apache DirectParquetOutputCommitter против Netflix S3PartitionedOutputCommitter - PullRequest
0 голосов
/ 21 декабря 2018

В spark есть конфигурация spark.sql.parquet.output.committer.class.Требуется тот тип коммиттера, который мы хотели использовать при сохранении файла.

Я обнаружил, что эти 2 коммиттера довольно широко используются:

com.netflix.bdp.s3.S3PartitionedOutputCommitter
org.apache.spark.sql.parquet.DirectParquetOutputCommitter

Какой из них лучше, а какие плюсы иминусы использования каждого?

1 Ответ

0 голосов
/ 22 декабря 2018

com.netflix.bdp.s3.S3PartitionedOutputCommitter использует загрузку нескольких частей для s3, и запись выполняется довольно быстро.Я попытался org.apache.spark.sql.parquet.DirectParquetOutputCommitter, но это не в состоянии масштабировать для большого объема данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...