Question

Я новичок в Spark и Scala, и даже после прочтения различных документов я все еще не могу найти лучший способ решить проблему.

У меня достаточно большой набор данных (~ ТБ), который можно загрузить в кадр данных следующим образом:

1 миллион строк
Столбцы time, data, Info1, Info2.
За исключением time, который является поплавком, все остальные являются массивами поплавков размером ~ 200K.
Info1 и Info2 идентичны для всех строк.
Похоже, что общие переменные (такие как переменные широковещания) не могут быть доступны с помощью фреймов данных / наборов данных.
Строки могут быть классами падежей, но они не могут иметь стандартные c переменные / сопутствующие объекты в Spark.
Строки не могут быть обычными классами.
Похоже, что только выход имеет избыточность с info1 и info2 одинаковыми во всех столбцах, но в таких случаях это кажется ужасно дорогим.
Использование crossJoin может иметь слишком большие расходы на связь.

Буду признателен за любые входные данные при представлении данных в Spark.

TIA.

user926918 · Answer 1 · 30 января 2020

Ниже приведено одно из самых простых решений, в котором добавляется новый столбец с константой:

val arr = Array(12.223F, 12.1F, 213.21F)
val df1 = df2.withColumn("info", lit(arr))

Обработка повторяющихся данных в фреймах данных / наборах данных Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.