Question

У меня есть сервер в облаке (скрытый за VPN), на котором я запускаю кластер Elasticsearch с одним узлом.В этом экземпляре Elasticsearch у меня есть индекс (скажем, он называется metrics-data) - он занимает 8 ГБ.

Я хотел развернуть кластер GCP Dataproc и выполнить некоторый анализ с использованием Spark с Jupyter on metrics-индекс данных из этого удаленного кластера Elasticsearch.

Какой самый простой способ добиться этого?

Mariusz Górski · Answer 1 · 20 декабря 2018

Хорошо, так что в конце концов я решил:

Вывести индексы из моего кластера Elasticsearch на локальный компьютер с помощью elasticdump:
```
elasticdump --input=http://190.1.1.2:9200/metrics-data-* \
    --output=./data/metrics-data.json --sourceOnly --limit=10000
```

Загрузить файлы в Google Cloud Storage(GCS):

for i in ./data/*; do gsutil cp $i gs://bucket-name/; done

Загрузка данных в Spark с использованием Разъем облачного хранилища (по умолчанию установлен на GCP Dataproc)

Это будет еще более плавнымесли elasticdump выводил напрямую в GCP (как это было для amazon S3).

Не уверен, что это самый простой, но работает для меня.

GCP Dataproc с Elasticsearch

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

GCP Dataproc с Elasticsearch

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы