Живое соединение через sparklyr в RStudio, медленнее, чем соединение через sparkmagic - PullRequest
0 голосов
/ 13 сентября 2018

Я использую sparklyr(0.8.4) в RStudio для подключения к моей удаленной среде искры через livy, и заметил, что для установки сеанса sparklyr понадобилось около 3-5 минут.

sc <- sparklyr::spark_connect(master="https://myremotelivy", method="livy")

Но, когда я подключаюсь к тому же кластеру через sparkmagic (в блокноте jupyter), через ту же конечную точку Ливия, я вижу меньше минуты, в которуюsparkR контекст сеанса возвращается.

Я понимаю, что sparklyr сильно отличается от sparkR с точки зрения того, как он работает с удаленной системой (т. Е. Sparklyr использует sparkQL), и, возможно, это неправильное сравнение.

Может ли кто-нибудь поделиться какой-либо информацией о том, почему установление этого сеанса через RStudio занимает гораздо больше времени?и есть ли параметры конфигурации (livy, spark или RStudio), которые могут помочь с взаимодействиями через sparklyr, чтобы сделать его менее медленным?Даже выполнение простого x <- tbl(sc, "mytable") заняло около ~ 15 секунд.

Большое спасибо.

...