S3 - Искра - Avro прочитал проблему - PullRequest
1 голос
/ 03 марта 2020

Чтение файлов Avro с S3, у меня серьезные проблемы с производительностью (некоторые исполнители не работают), и я вижу следующие сообщения WARN в журналах:

20/03/03 14:41:36 INFO FileScanRDD: Reading File path: s3://path/part-r-00121.avro, range: 939524096-1073741824, partition values: [empty row]
20/03/03 14:41:36 WARN S3AbortableInputStream: Not all bytes were read from the S3ObjectInputStream, aborting HTTP connection. This is likely an error and may result in sub-optimal behavior. Request only the bytes you need via a ranged GET or drain the input stream after use.

Я пробовал и spark.read().format("com.databricks.spark.avro").load(), и context.newAPIHadoopFile методы для загрузки файлов avro, оба заканчиваются точно такими же проблемами с производительностью. Этого не происходит, когда я выполняю простые операции RDD, такие как подсчет. Однако, когда я начинаю делать более сложные преобразования в RDD с достаточно большими данными, я начинаю видеть это предупреждение, и у меня не удается выполнить исполнителей. Любые идеи, как я могу предотвратить это? Могу ли я выполнить какие-либо настройки, если у меня нет ограничений на бюджет оборудования EMR?

...