Question

Я новичок в использовании облачных сервисов, и навигация в облачной платформе Google довольно пугающая.Когда дело доходит до Google Dataproc, они рекламируют Hadoop, Spark и Hive.

Мой вопрос, доступна ли Импала вообще?

Я хотел бы сделать несколько проектов бенчмаркинга, используя все четыре из этих инструментов, и мне требуется Apache Impala вдоль Spark / Hive.

Kenry Sanchez · Answer 1 · 31 мая 2019

Вы можете попробовать использовать другой новый экземпляр Dataproc вместо стандартного.

Например, вы можете создать экземпляр Dataproc с HUE (Hadoop User Experience), который является интерфейсом для обработки кластера Hadoop, созданного Cloudera. Преимущество здесь в том, что HUE имеет в качестве компонента по умолчанию Apache Impala. Он также имеет Pig, Hive и т. Д. Так что это довольно хорошее решение для использования Impala.

Другим решением будет создание собственного кластера в начале, но это не очень хорошая идея (по крайней мере, вы хотите все настроить). Таким образом, вы можете установить Impala.

Вот ссылка, для получения дополнительной информации:

https://github.com/GoogleCloudPlatform/dataproc-initialization-actions/tree/master/hue

Chaotic Pechan · Answer 2 · 31 мая 2019

Нет, DataProc - это кластер, который поддерживает Hadoop, Spark, Hive и pig; используя изображения по умолчанию.

Проверьте эту ссылку для получения дополнительной информации о собственном списке изображений для DataProc

https://cloud.google.com/dataproc/docs/concepts/versioning/dataproc-versions

rsantiago · Answer 3 · 18 июня 2019

Dataproc предоставляет вам SSH-доступ к мастеру и рабочим, поэтому можно установить дополнительное программное обеспечение и в соответствии с документацией Impala вам потребуется:

Обеспечить Требования Impala .
Настройка Impala в кластере путем сборки из источника .

Помните, что рекомендуется устанавливать демон impalad с каждым DataNode.

Aniket Mokashi · Answer 4 · 18 июня 2019

Cloud Dataproc поддерживает Hadoop, Spark, Hive, Pig по умолчанию в кластере.Вы можете установить дополнительные поддерживаемые компоненты, такие как Zookeeper, Jyputer, Anaconda, Kerberos, Druid и Presto (полный список можно найти здесь ).Кроме того, вы можете установить большой набор компонентов с открытым исходным кодом, используя initialization-actions .

Impala не поддерживается в качестве необязательного компонента, и для него пока нет сценария инициализационного действия.Вы можете заставить его работать на Dataproc с HDFS, но для его работы с GCS могут потребоваться нетривиальные изменения.

Поддерживает ли Google Dataproc Apache Impala?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Поддерживает ли Google Dataproc Apache Impala?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы