Когда я записываю Spark DataFrame в виде файла паркета в озеро данных Azure и считываю его обратно в Databricks, я не всегда получаю переменные с правильной схемой. Похоже, есть много вопросов по этому поводу с использованием pyspark, java и других, но мне трудно преобразовать это в код SparkR.
Как мне установить схему при записи файла паркета с помощью SparkR?
library(SparkR); library(magrittr)
mtcars %>%
as.DataFrame() %>%
SparkR::coalesce(1L) %>%
write.df("...azure data lake store path", source = "parquet", mode = "overwrite", header = "true")