Поддерживает ли Google Dataproc Apache Impala? - PullRequest
2 голосов
/ 30 мая 2019

Я новичок в использовании облачных сервисов, и навигация в облачной платформе Google довольно пугающая.Когда дело доходит до Google Dataproc, они рекламируют Hadoop, Spark и Hive.

Мой вопрос, доступна ли Импала вообще?

Я хотел бы сделать несколько проектов бенчмаркинга, используя все четыре из этих инструментов, и мне требуется Apache Impala вдоль Spark / Hive.

Ответы [ 4 ]

2 голосов
/ 31 мая 2019

Вы можете попробовать использовать другой новый экземпляр Dataproc вместо стандартного.

Например, вы можете создать экземпляр Dataproc с HUE (Hadoop User Experience), который является интерфейсом для обработки кластера Hadoop, созданного Cloudera. Преимущество здесь в том, что HUE имеет в качестве компонента по умолчанию Apache Impala. Он также имеет Pig, Hive и т. Д. Так что это довольно хорошее решение для использования Impala.

Другим решением будет создание собственного кластера в начале, но это не очень хорошая идея (по крайней мере, вы хотите все настроить). Таким образом, вы можете установить Impala.

Вот ссылка, для получения дополнительной информации:

https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/tree/master/hue

2 голосов
/ 31 мая 2019

Нет, DataProc - это кластер, который поддерживает Hadoop, Spark, Hive и pig; используя изображения по умолчанию.

Проверьте эту ссылку для получения дополнительной информации о собственном списке изображений для DataProc

https://cloud.google.com/dataproc/docs/concepts/versioning/dataproc-versions

1 голос
/ 18 июня 2019

Dataproc предоставляет вам SSH-доступ к мастеру и рабочим, поэтому можно установить дополнительное программное обеспечение и в соответствии с документацией Impala вам потребуется:

Помните, что рекомендуется устанавливать демон impalad с каждым DataNode.

0 голосов
/ 18 июня 2019

Cloud Dataproc поддерживает Hadoop, Spark, Hive, Pig по умолчанию в кластере.Вы можете установить дополнительные поддерживаемые компоненты, такие как Zookeeper, Jyputer, Anaconda, Kerberos, Druid и Presto (полный список можно найти здесь ).Кроме того, вы можете установить большой набор компонентов с открытым исходным кодом, используя initialization-actions .

Impala не поддерживается в качестве необязательного компонента, и для него пока нет сценария инициализационного действия.Вы можете заставить его работать на Dataproc с HDFS, но для его работы с GCS могут потребоваться нетривиальные изменения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...