В настоящее время я пытаюсь сгенерировать визуализации в записных книжках zeppelin (0.8.1), используя интерпретатор pyspark с python 3.7.3.
Создание следующего простого графика с использованием seaborn (0.9.0) занимает около 5 минут(с очень высокой загрузкой ЦП в течение всей продолжительности):
%pyspark
import seaborn as sns
import numpy as np
import pandas as pd
data = pd.DataFrame(np.random.rand(100,3))
sns.pairplot(data)
Это поведение довольно противоречиво, так как следующий (гораздо более интенсивный объем данных) рендеринг выполняется мгновенно
%pyspark
import seaborn as sns
import numpy as np
import pandas as pd
df = pd.DataFrame(data = np.random.rand(10000,2))
sns.lineplot(x = 0, y = 1, data = df)
Я заметил, чтоиспользование matplotlib (3.1.0), как правило, намного быстрее и почти так же быстро, как я привык в среде ноутбуков jupyter.
Я уже читал о проблеме ZEPPELIN-1894 , но могуТакже визуализируйте упомянутую диаграмму рассеяния.