Привет, совершенно новичок в DataStax Analytics / Spark и собираюсь по кругу, пытаясь сделать что-то, что может быть невозможно даже через Spark SQL. Нужны советы. Это с DataStax Enterprise (DSE) 6.7 и Apache Spark 2.2.3.9
У меня есть огромный набор данных в Cassandra (DSE), и я теперь работаю над многоуровневой аналитикой DSE с AlwaysOn SQL ( и, следовательно, Spark), поэтому я могу попытаться выполнить прореживание.
У меня есть столбец, который содержит названия различных измерений (может изменяться во времени; т.е. я не всегда знаю, какие измерения могут быть добавлены ). Это выглядит примерно так: ![enter image description here](https://i.stack.imgur.com/AROZI.png)
Что я хотел бы сделать в качестве первого прохода, так это выбрать некоторую форму агрегирования интервала (среднее, первое и т. Д. c). ). В моем примере здесь я хочу выбрать первое измерение (время, пара значений) для каждого часового окна. Так что-то вроде Value, Time from "window (Time," 1 hours ").
Тогда это будет выглядеть так: ![enter image description here](https://i.stack.imgur.com/2f2EO.png)
... и после этого я хотел бы перейти к «многовариантной» таблице, где каждое из измерений становится отдельным столбцом. ![enter image description here](https://i.stack.imgur.com/pggfI.png)
Похоже, что поворот невозможен в Spark SQL, поэтому я не уверен, возможно ли это. Любые указания / подсказки по этому вопросу (и насколько я могу продвинуться) были бы весьма признательны.