GCP Dataproc с Elasticsearch - PullRequest
       39

GCP Dataproc с Elasticsearch

0 голосов
/ 19 декабря 2018

У меня есть сервер в облаке (скрытый за VPN), на котором я запускаю кластер Elasticsearch с одним узлом.В этом экземпляре Elasticsearch у меня есть индекс (скажем, он называется metrics-data) - он занимает 8 ГБ.

Я хотел развернуть кластер GCP Dataproc и выполнить некоторый анализ с использованием Spark с Jupyter on metrics-индекс данных из этого удаленного кластера Elasticsearch.

Какой самый простой способ добиться этого?

1 Ответ

0 голосов
/ 20 декабря 2018

Хорошо, так что в конце концов я решил:

  1. Вывести индексы из моего кластера Elasticsearch на локальный компьютер с помощью elasticdump:
    elasticdump --input=http://190.1.1.2:9200/metrics-data-* \
        --output=./data/metrics-data.json --sourceOnly --limit=10000
    
  2. Загрузить файлы в Google Cloud Storage(GCS):
    for i in ./data/*; do gsutil cp $i gs://bucket-name/; done
    
  3. Загрузка данных в Spark с использованием Разъем облачного хранилища (по умолчанию установлен на GCP Dataproc)

Это будет еще более плавнымесли elasticdump выводил напрямую в GCP (как это было для amazon S3).

Не уверен, что это самый простой, но работает для меня.

...