Question

Я использую JupyterHub, который запускается из контейнера Docker в кластере AWS.Я запускаю блокнот pyspark, который выполняет команды spark через Livy.Spark установлен на главном узле кластера, но там установлено не так много модулей Python.Большинство модулей установлено внутри док-контейнера.

Теперь в «части pyspark» записной книжки я читаю данные, выбираю то, что мне нужно, и преобразую их в DataFrame pandas.Как я могу сохранить этот фрейм данных, чтобы использовать его в следующей ячейке, которая является локальной (имеется в виду, что я запускаю ее с %% local magic), чтобы она могла получить доступ к множеству локально (in-docker) установленных модулей Python, таких как pandas, matplotlib, sikit-learn, которые недоступны в главном узле)?

Я видел пример здесь https://blog.insightdatascience.com/using-jupyter-on-apache-spark-step-by-step-with-a-terabyte-of-reddit-data-ef4d6c13959a, где волшебство "%% sql -o" использовалось для сохранения результата запроса и использования sqlэто в «локальной» ячейке позже.

Что мне нужно, это что-то похожее, но для pandas dataframe.

Есть предложения?

Как сохранить панду DataFrame среди ячеек ноутбука Юпитера

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как сохранить панду DataFrame среди ячеек ноутбука Юпитера

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы