Я новичок в Spark и Scala, и даже после прочтения различных документов я все еще не могу найти лучший способ решить проблему.
У меня достаточно большой набор данных (~ ТБ), который можно загрузить в кадр данных следующим образом:
1 миллион строк
Столбцы time
, data
, Info1
, Info2
.
За исключением time
, который является поплавком, все остальные являются массивами поплавков размером ~ 200K.
Info1
и Info2
идентичны для всех строк.
Похоже, что общие переменные (такие как переменные широковещания) не могут быть доступны с помощью фреймов данных / наборов данных.
Строки могут быть классами падежей, но они не могут иметь стандартные c переменные / сопутствующие объекты в Spark.
Строки не могут быть обычными классами.
Похоже, что только выход имеет избыточность с info1
и info2
одинаковыми во всех столбцах, но в таких случаях это кажется ужасно дорогим.
Использование crossJoin
может иметь слишком большие расходы на связь.
Буду признателен за любые входные данные при представлении данных в Spark.
TIA.