Я использую Apache Spark и Redshift в VPC, а также использую AWS S3 для исходных данных и временных данных для Redshift COPY.
Сейчас я подозреваю, что производительность чтения / записи с / на AWS S3 недостаточно высока и основана на предложении в следующем обсуждении https://github.com/databricks/spark-redshift/issues/318 Я создал конечную точку S3 в VPC. Сейчас я не вижу никакой разницы в производительности до и после создания конечной точки S3 при загрузке данных из S3.
В Apache Spark я читаю данные следующим образом:
spark.read.csv("s3://example-dev-data/dictionary/file.csv")
Нужно ли добавлять / настраивать дополнительную логику / конфигурацию в AWS EMR Apache Spark для правильного использования конечной точки AWS S3?