Как создать большой фрейм данных с произвольным контентом, используя scala? - PullRequest
0 голосов
/ 04 марта 2019

Мне нужно создать большой кадр данных искры с 1000+ столбцами, 10M + строк, 1000 разделов со случайными данными для тестирования.Я знаю, что мне нужно создать большой rdd и применить к нему схему, используя spark.sqlContext.createDataFrame(rdd, schema) Пока что я создал схему, используя val schema = StructType((0 to 1000).map(n => StructField(s"column_$n", IntegerType))) Я застрял в создании большого RDD со случайным содержимым.Как мне это сделать?

1 Ответ

0 голосов
/ 04 марта 2019

Работает, используя RandomRDD из пакета mllib

import org.apache.spark.mllib.random.RandomRDDs._
val rdd = normalRDD(sc, 1000000L, 10).map(m =>  Row(schema.map(_ => Array.fill(1000)(m).mkString).toList: _*))
 val schema = StructType((0 to 2000).map(n => StructField(s"column_$n", IntegerType)))
  spark.sqlContext.createDataFrame(rows, schema)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...