Как включить пакеты в PySpark при использовании ноутбуков на EMR? - PullRequest
2 голосов
/ 14 апреля 2019

В настоящее время я пытаюсь проанализировать некоторые данные с помощью ноутбука, используя EMR. У меня проблема в том, что я не могу понять, как при использовании ядра PySpark включать конкретные артефакты. В частности, я пытаюсь включить org.apache.spark: spark-sql-kafka-0-10_2.11: 2.4.0, что я обычно делаю в командной строке при запуске среды PySpark, просто используя --packages аргумент. Должен ли я включить действие Bootstrap? Я не совсем уверен, что я бы даже положил туда. Любая помощь будет наиболее ценной.

...