Сохранение состояния HDFS после воссоздания кластера EMR - PullRequest
0 голосов
/ 21 марта 2020

Можно ли сохранить состояние хранилища HDFS в кластере emr после его воссоздания? По моему опыту, все файлы, хранящиеся локально, теряются.

Можно ли использовать подключенный том, например, EFS, и подключить кластер EMR к этому файлу? Например:

  <property>
    <name>dfs.datanode.data.dir</name>
    <value>file:///mnt/my/efs/location/</value>
  </property> 

В поисках способа определить, где кластер последний раз остановился, если он был удален. Любая помощь будет оценена.

1 Ответ

2 голосов
/ 21 марта 2020

В кластере EMR используются локальные хранилища и смонтированные EBS экземпляров EC2 для дисковых областей HDFS (вы можете проверить, сколько свободного места на диске HDFS больше или меньше количества дисков, смонтированных на узлах кластера EMR). Насколько я знаю, использование EFS не вариант, поскольку разрешения IAM для использования EFS и шлюза безопасности для подключения не являются параметрами при создании кластера EMR.

Мы можем использовать S3DistCp (s3-dist -cp) для копирования с HDFS на S3. Или придерживайтесь EMRFS вместо HDFS.

...