Использование морской волны в apache spark - PullRequest
0 голосов
/ 06 января 2020

Используя pandas и seaborn на кадре данных csv с 50 миллионами случаев для создания некоторой матрицы рассеяния, я заметил, что время обработки действительно велико, для удобства я сделал df.sample() для части данных, и это сократило процесс время. Учитывая потенциал apache spark, я хотел спросить, возможно ли применить его скорость для обработки всех 50 миллионов создаваемых данных: scatter matrix, scatter plot, pairgrid et c. в seaborn. Взяв информацию об этом топи c Я увидел, что это довольно сложно сделать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...