Нужен ли SAP Vora 2.1 кластер Hadoop / Spark?И можно ли использовать PySpark? - PullRequest
0 голосов
/ 24 мая 2018

В соответствии с документацией, SAP_Vora_Installation_Admin_Guide_2.0_en.pdf требуется, чтобы работали кластер Hadoop / Spark и кластер Kubernetis.

Теперь мой вопросЗачем вам нужен этот кластер Hadoop / Spark?Потому что SAP Vora может читать из HDFS, WebHDFS и так далее.

Так это просто, что если у вас есть задание Spark, вы можете просто запустить его в кластере Spark и, если ему нужны данные из HANA / Vora, оно может получить к нему доступ?Или Vora также использует кластер Spark для обработки данных?

Поскольку сейчас похоже, что Spark может использовать Vora, но не то, что Vora может использовать Spark (инструменты пользовательского интерфейса Vora, такие как редактор SQL и т. Д.).Поскольку Zeppelin, который вы можете прикрепить к Vora, просто используется для визуализации (насколько я понимаю, поправьте меня, если я ошибаюсь, пожалуйста).

Мой второй вопрос - возможно ли использовать PySpark на Hadoop / Spark?кластер для взаимодействия с Vora, а не только с Scala Spark.

Заранее спасибо.

1 Ответ

0 голосов
/ 24 мая 2018

Да, ваше предположение верно: Spark может получить доступ к Vora 2.1, но Vora 2.1 не может взаимодействовать с Spark и, следовательно, не требует наличия кластера Hadoop / Spark.Однако, если у вас нет Hadoop, у вас должно быть альтернативное хранилище данных для загрузки данных, например, из S3, ADL.

Да, можно использовать PySpark для взаимодействия с Vora.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...