У меня есть несколько схем, как показано ниже, с разными именами столбцов и типами данных.Я хочу сгенерировать тестовые / смоделированные данные, используя DataFrame
с Scala для каждой схемы, и сохранить их в файле паркета.
Ниже приведен пример схемы (из образца json) для динамического генерирования данных с использованием фиктивных значений в нем..
val schema1 = StructType(
List(
StructField("a", DoubleType, true),
StructField("aa", StringType, true)
StructField("p", LongType, true),
StructField("pp", StringType, true)
)
)
Мне нужен rdd / dataframe, подобный этому, с 1000 строками, каждая из которых основана на количестве столбцов в приведенной выше схеме.
val data = Seq(
Row(1d, "happy", 1L, "Iam"),
Row(2d, "sad", 2L, "Iam"),
Row(3d, "glad", 3L, "Iam")
)
В основном .. как и эти 200 наборов данных существуют длячто мне нужно генерировать данные динамически, написание отдельных программ для каждой схемы просто невозможно для меня.
Pls.помогите мне с вашими идеями или импл.как я новичок в спарке.
Можно ли генерировать динамические данные на основе схем разных типов?