AWS EMR Apache Spark и пользовательская конечная точка S3 в VPC - PullRequest
0 голосов
/ 02 апреля 2019

Я использую Apache Spark и Redshift в VPC, а также использую AWS S3 для исходных данных и временных данных для Redshift COPY.

Сейчас я подозреваю, что производительность чтения / записи с / на AWS S3 недостаточно высока и основана на предложении в следующем обсуждении https://github.com/databricks/spark-redshift/issues/318 Я создал конечную точку S3 в VPC. Сейчас я не вижу никакой разницы в производительности до и после создания конечной точки S3 при загрузке данных из S3.

В Apache Spark я читаю данные следующим образом:

spark.read.csv("s3://example-dev-data/dictionary/file.csv")

Нужно ли добавлять / настраивать дополнительную логику / конфигурацию в AWS EMR Apache Spark для правильного использования конечной точки AWS S3?

1 Ответ

1 голос
/ 03 апреля 2019

Конечной точкой S3 VPC является Конечная точка шлюза , поэтому вам нужно поместить новую запись в таблицу маршрутизации ваших подсетей, где вы запускаете кластеры EMR, которые направляют трафик к конечной точке.

...