Seaborn медленно отображает сюжеты в тетрадях Apache Zeppelin - PullRequest
0 голосов
/ 27 сентября 2019

В настоящее время я пытаюсь сгенерировать визуализации в записных книжках zeppelin (0.8.1), используя интерпретатор pyspark с python 3.7.3.

Создание следующего простого графика с использованием seaborn (0.9.0) занимает около 5 минут(с очень высокой загрузкой ЦП в течение всей продолжительности):

%pyspark
import seaborn as sns
import numpy as np
import pandas as pd

data = pd.DataFrame(np.random.rand(100,3))

sns.pairplot(data)

Это поведение довольно противоречиво, так как следующий (гораздо более интенсивный объем данных) рендеринг выполняется мгновенно

%pyspark
import seaborn as sns
import numpy as np
import pandas as pd

df = pd.DataFrame(data = np.random.rand(10000,2))

sns.lineplot(x = 0, y = 1, data = df)

Я заметил, чтоиспользование matplotlib (3.1.0), как правило, намного быстрее и почти так же быстро, как я привык в среде ноутбуков jupyter.

Я уже читал о проблеме ZEPPELIN-1894 , но могуТакже визуализируйте упомянутую диаграмму рассеяния.

1 Ответ

0 голосов
/ 29 сентября 2019

Хорошо, после публикации здесь решение состоит в том, чтобы использовать интерпретатор %spark.ipyspark, для этого может потребоваться установка дополнительных пакетов:

pip install protobuf grpcio
...