Я использую sparklyr(0.8.4)
в RStudio для подключения к моей удаленной среде искры через livy, и заметил, что для установки сеанса sparklyr понадобилось около 3-5 минут.
sc <- sparklyr::spark_connect(master="https://myremotelivy", method="livy")
Но, когда я подключаюсь к тому же кластеру через sparkmagic
(в блокноте jupyter), через ту же конечную точку Ливия, я вижу меньше минуты, в которуюsparkR
контекст сеанса возвращается.
Я понимаю, что sparklyr
сильно отличается от sparkR
с точки зрения того, как он работает с удаленной системой (т. Е. Sparklyr использует sparkQL), и, возможно, это неправильное сравнение.
Может ли кто-нибудь поделиться какой-либо информацией о том, почему установление этого сеанса через RStudio занимает гораздо больше времени?и есть ли параметры конфигурации (livy, spark или RStudio), которые могут помочь с взаимодействиями через sparklyr, чтобы сделать его менее медленным?Даже выполнение простого x <- tbl(sc, "mytable")
заняло около ~ 15 секунд.
Большое спасибо.