В настоящее время я использую Spark 2.4.0
в режиме Java.
У меня в цепочке операций создается Java RDD
или Dataset
.Затем на этом этапе мне было бы очень удобно продолжить эти операции, применив к ним некоторые R
команды или даже полный R
сценарий, который, кажется, более эффективен для работы, которую я должен выполнить, дляследующие шаги.
Я много искал, но кажется, что программисты либо выбирают язык Java
или R
(с SparkR
), когда они используют Spark
, но не используют ихвсе вместе.Интересно, возможно ли это и как.
По-моему, RDD
, являющийся одним и тем же базовым классом для Java
и R
, я должен быть в состоянии сделать что-то подобное:
sc.oneRfunction(myJavaRDD.rdd())
с помощьюSpark
, который бы интегрировал все вместе ...
Но если это приведет к ловушке, переход к чему-то слишком сложному (особенно с точки зрения настроек), если бы Spark
не было запланировано для этогопользуйтесь (фактически смешивая языки), пожалуйста, предупредите меня.Может быть, я должен избегать попытки этого.
Большое спасибо,