Question

Мне нужно создать большой кадр данных искры с 1000+ столбцами, 10M + строк, 1000 разделов со случайными данными для тестирования.Я знаю, что мне нужно создать большой rdd и применить к нему схему, используя spark.sqlContext.createDataFrame(rdd, schema) Пока что я создал схему, используя val schema = StructType((0 to 1000).map(n => StructField(s"column_$n", IntegerType))) Я застрял в создании большого RDD со случайным содержимым.Как мне это сделать?

Miguel A. Friginal · Answer 1 · 04 марта 2019

Работает, используя RandomRDD из пакета mllib

import org.apache.spark.mllib.random.RandomRDDs._
val rdd = normalRDD(sc, 1000000L, 10).map(m =>  Row(schema.map(_ => Array.fill(1000)(m).mkString).toList: _*))
 val schema = StructType((0 to 2000).map(n => StructField(s"column_$n", IntegerType)))
  spark.sqlContext.createDataFrame(rows, schema)

Как создать большой фрейм данных с произвольным контентом, используя scala?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как создать большой фрейм данных с произвольным контентом, используя scala?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов