Запуск сценария оболочки из активности spark из HDInsight с использованием фабрики данных azure (ADF) - PullRequest
0 голосов
/ 30 апреля 2020

Мы переносим рабочие задания по запросу обещания в HDInsight, нам нужны уточнения:

  1. , который у нас есть. sh файл, рассказывающий о конфигурациях spark-submit, и мы вызываем файл .py внутри. sh файл. / usr / hdp / current / spark2-client / bin / spark-submit \ --executor-cores $ cores \ --executor-memory $ memory \ --num-executors $ executors \ --queue $ queue \ --master $ master \ --deploy-mode $ mode \ --driver-memory = $ driverMemory \ sample.py

Как вызвать этот сценарий оболочки в HDInsight, чтобы запланировать его с помощью конвейера.

В файле pyspark (.py) мы читаем данные из существующей таблицы улья и записываем результаты в таблицу улья (как мы можем настроить ульи с помощью spark в hdinsight)

Ваша помощь будет весьма полезной оценили.

...