С сеткой вы можете использовать панд из python для чтения файлов паркета.Это может избавить вас от необходимости запускать инстанс искры.Может потерять производительность при сериализации, пока apache arrow не выпустит свою версию.Как вышеупомянутый комментарий упоминается.
library(reticulate)
library(dplyr)
pandas <- import("pandas")
read_parquet <- function(path, columns = NULL) {
path <- path.expand(path)
path <- normalizePath(path)
if (!is.null(columns)) columns = as.list(columns)
xdf <- pandas$read_parquet(path, columns = columns)
xdf <- as.data.frame(xdf, stringsAsFactors = FALSE)
dplyr::tbl_df(xdf)
}
read_parquet(PATH_TO_PARQUET_FILE)