Использование AWS EMRFS в apache spark, размещенной на ec2 - PullRequest
0 голосов
/ 24 декабря 2018

Если я использую искру на ec2 (или в kubernetes), могу ли я использовать s3 / emrfs вместо hdfs?Готово ли это производство и использует ли оно параллелизм для чтения / обработки данных из s3?

Заранее спасибо

Ответы [ 2 ]

0 голосов
/ 26 декабря 2018

EMR использует S3-коннектор с закрытым исходным кодом с фирменными функциями «emrfs».Вы не можете видеть источник, не можете получить поддержку от кого-либо еще и не можете использовать его, кроме случаев, когда вы запускаете emr .Для независимых приложений: разъем s3a отличный, но не полная замена HDFS

0 голосов
/ 24 декабря 2018

Нет, EMRFS предназначена только для EMR, простой способ сделать S3 похожим на HDFS.Для EC2 вы подключаетесь к S3, но это не так просто, как с EMR.S3 не тесно связан с EC2.Да, параллелизм применяется, но не в соответствии с местоположением данных MR, рабочим и узлом данных, который является.

...