Можете ли вы получить доступ к EMRFS из oop на EC3 - PullRequest
0 голосов
/ 08 марта 2020

Ограничен ли доступ к EMRFS для EMR или он может быть получен из Had oop, установленного в EC2. Может кто-нибудь указать на какую-то статью о том, как AWS управляет передачей данных из S3 в кластер oop для обработки. Как ЭМИОС более эффективен по сравнению с S3a

1 Ответ

0 голосов
/ 08 марта 2020

EMRFS - это реализация, используемая для доступа к s3 посредством EMR, и, следовательно, вы не сможете использовать ее с oop, установленным с EC2.

При наличии oop на EC2 вы будете должен использовать модуль oop - aws (который содержит s3a).

https://hadoop.apache.org/docs/current/hadoop-aws/tools/hadoop-aws/index.html#Overview

По производительности, я не уверен, есть ли существенные различия или последствия. (это очень субъективно, и вам может потребоваться выполнить тесты производительности, чтобы проверить это). Но есть одно важное отличие между emrfs и s3a. EMRFS предлагает сильную согласованность в течение некоторого времени. Это очень полезно, когда вам нужна согласованность чтения после записи (например, HBASE и других приложений).

Обратите внимание, что apache Had oop также построил аналогичную модель сильной согласованности с s3guard.

Общее правило - использование EMRFS при использовании EMR и реализация s3a при использовании других дистрибутивов oop.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...