Можно ли запускать произвольные сценарии Python или R на кластере "Spark with Yarn"? - PullRequest
0 голосов
/ 09 марта 2020

Я пытаюсь создать кластер, который выполняет некоторые операции с большими данными. Я не уверен, может ли кластер 'SPARK with YARN' запустить Python или сценарий R.

Если это возможно, какой самый простой способ запустить эти сценарии?

Спасибо.

1 Ответ

1 голос
/ 09 марта 2020

Вы должны изучить Had oop Streaming , который позволяет запускать задания Had oop, созданные с использованием произвольного языка программирования. Вам просто нужно предоставить пару исполняемых файлов (например, Python сценариев) - один для фазы карты (переход от входных данных к набору промежуточных пар ключ-значение) и один для фазы сокращения (переход от этих промежуточных ключей). -значение пар к выводу вашей работы).

...