Я новичок в Spark и новее в R, и пытаюсь выяснить, как "включить" другие R-скрипты при запуске spark-submit.
Скажем, у меня есть следующий R-скрипт, который "создает" другой R-скрипт:
main.R
source("sub/fun.R")
mult(4, 2)
Второй R-скрипт выглядит так, который существует вподкаталог "sub":
sub / fun.R
mult <- function(x, y) {
x*y
}
Я могу вызвать это с помощью Rscript и успешно заставить его работать.
Rscript file.R
[1] 8
Тем не менее, я хочу запустить это с Spark и использовать spark-submit.Когда я запускаю spark-submit, мне нужно иметь возможность установить текущий рабочий каталог на рабочих Spark в каталог, содержащий скрипт main.R, чтобы рабочий процесс Spark / R смог найти «источник»файл в подкаталоге «sub».(Примечание: я планирую иметь общую файловую систему между работниками Spark, чтобы все работники имели доступ к файлам).
Как настроить текущий рабочий каталог, в котором SparkR выполняет, так, чтобы он мог обнаружитькакие-либо включенные (поставленные) сценарии?
Или есть флаг / sparkconfig для spark-submit для установки текущего рабочего каталога рабочего процесса, который я могу указать на каталог, содержащий сценарии R?
Или, у R есть переменная окружения, которую я могу установить, чтобы добавить запись в "R-PATH" (простите, если в R такой вещи нет)?
Или я могу использовать флаг --files, чтобы инициировать отправку, чтобы включить эти дополнительные R-файлы, и если да, то как?
Или вообще есть лучший способ включить R-скрипты при запуске с spark-submit?
Итак, я ищу способ включить файлы с помощью spark-submit и R.
Спасибо за чтение.Любые мысли очень ценятся.