Блокнот pyspark AWS JupyterHub для использования модуля pandas - PullRequest
0 голосов
/ 19 сентября 2018

У меня есть докер-контейнер с установленным JupyterHub, работающий на кластере AWS, как описано здесь https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-jupyterhub.html. У него есть ядра Python 3, PySpark 3, PySpark, SparkR и Spark, а внутри контейнера установленыКонда и многие другие пакеты Python, но без искры.Проблема в том, что когда я запускаю ядро ​​pyspark или pyspark3, оно подключается к spark, установленному на главном узле (вне контейнера докера), и все внутренние модули больше не доступны для этого ноутбука (хотя они видны ядру python,но тогда искра в этом случае не видна).

Итак, вопрос в том, как сделать модули, установленные внутри докера, доступными и видимыми для ноутбука pyspark / pyspark3?Я думаю, что в настройках чего-то не хватает.

Я в значительной степени ищу способ использования внутренних модулей докера С установленной снаружи искрой в одном ноутбуке.

Пока что я могу получить только одно или другое.

1 Ответ

0 голосов
/ 20 сентября 2018

Я только что нашел половину ответа здесь https://blog.chezo.uno/livy-jupyter-notebook-sparkmagic-powerful-easy-notebook-for-data-scientist-a8b72345ea2d и здесь https://docs.microsoft.com/en-us/azure/hdinsight/spark/apache-spark-jupyter-notebook-kernels. Секрет в том, чтобы использовать %% локальную магию в ячейке, которая позволяет нам получить доступ к модулям Python, установленным локально (в док-контейнере).Теперь я просто не знаю, как сохранить файл данных pandas, созданный в «части pyspark» ноутбука, поэтому он доступен в «локальной» части.

...