Как лучше всего обрабатывать большие данные при математическом моделировании Scala с визуализацией данных в R? - PullRequest
0 голосов
/ 20 ноября 2018

У меня есть математическое моделирование, написанное на языке scala (случайные числа, небольшие вычисления, много работы с коллекциями и создание большого количества данных).В настоящее время я создаю несколько CSV-файлов в качестве вывода.Затем я загружаю их в R и отображаю информацию.Но CSV, вероятно, не лучший вариант для обмена большими данными.Моя проблема в том, что я не знаю, как улучшить свой текущий подход.

Должен ли я использовать базу данных?Который из?MariaDB?

Должен ли я рассчитывать данные, которые будут отображаться в scala, пока выполняется симуляция?Без расчета графиков моей программе нужно 20 секунд на 500000 шагов моделирования.С расчетами нужно более 3мин.Но я мог бы использовать темы для расчетов.Или я должен дать R чистые данные и сделать вычисления на этих данных в R?

Должен ли я использовать Hadoop и Spark?Вместе с базой данных?

Я в замешательстве и надеюсь, что у вас есть для меня лучшие практики.

...