Используя pandas и seaborn на кадре данных csv с 50 миллионами случаев для создания некоторой матрицы рассеяния, я заметил, что время обработки действительно велико, для удобства я сделал df.sample()
для части данных, и это сократило процесс время. Учитывая потенциал apache spark
, я хотел спросить, возможно ли применить его скорость для обработки всех 50 миллионов создаваемых данных: scatter matrix
, scatter plot
, pairgrid
et c. в seaborn
. Взяв информацию об этом топи c Я увидел, что это довольно сложно сделать.