SparkR: source () другие R-файлы в R-скрипте при запуске spark-submit - PullRequest
1 голос
/ 11 июня 2019

Я новичок в Spark и новее в R, и пытаюсь выяснить, как "включить" другие R-скрипты при запуске spark-submit.

Скажем, у меня есть следующий R-скрипт, который "создает" другой R-скрипт:

main.R

source("sub/fun.R")
mult(4, 2)

Второй R-скрипт выглядит так, который существует вподкаталог "sub":

sub / fun.R

mult <- function(x, y) {
   x*y
}

Я могу вызвать это с помощью Rscript и успешно заставить его работать.

Rscript file.R
[1] 8

Тем не менее, я хочу запустить это с Spark и использовать spark-submit.Когда я запускаю spark-submit, мне нужно иметь возможность установить текущий рабочий каталог на рабочих Spark в каталог, содержащий скрипт main.R, чтобы рабочий процесс Spark / R смог найти «источник»файл в подкаталоге «sub».(Примечание: я планирую иметь общую файловую систему между работниками Spark, чтобы все работники имели доступ к файлам).

Как настроить текущий рабочий каталог, в котором SparkR выполняет, так, чтобы он мог обнаружитькакие-либо включенные (поставленные) сценарии?

Или есть флаг / sparkconfig для spark-submit для установки текущего рабочего каталога рабочего процесса, который я могу указать на каталог, содержащий сценарии R?

Или, у R есть переменная окружения, которую я могу установить, чтобы добавить запись в "R-PATH" (простите, если в R такой вещи нет)?

Или я могу использовать флаг --files, чтобы инициировать отправку, чтобы включить эти дополнительные R-файлы, и если да, то как?

Или вообще есть лучший способ включить R-скрипты при запуске с spark-submit?

Итак, я ищу способ включить файлы с помощью spark-submit и R.

Спасибо за чтение.Любые мысли очень ценятся.

...