Spark SQL: как выбрать агрегат из времени windows для отдельных значений, а затем развернуть - PullRequest
0 голосов
/ 15 апреля 2020

Привет, совершенно новичок в DataStax Analytics / Spark и собираюсь по кругу, пытаясь сделать что-то, что может быть невозможно даже через Spark SQL. Нужны советы. Это с DataStax Enterprise (DSE) 6.7 и Apache Spark 2.2.3.9

У меня есть огромный набор данных в Cassandra (DSE), и я теперь работаю над многоуровневой аналитикой DSE с AlwaysOn SQL ( и, следовательно, Spark), поэтому я могу попытаться выполнить прореживание.

У меня есть столбец, который содержит названия различных измерений (может изменяться во времени; т.е. я не всегда знаю, какие измерения могут быть добавлены ). Это выглядит примерно так: enter image description here

Что я хотел бы сделать в качестве первого прохода, так это выбрать некоторую форму агрегирования интервала (среднее, первое и т. Д. c). ). В моем примере здесь я хочу выбрать первое измерение (время, пара значений) для каждого часового окна. Так что-то вроде Value, Time from "window (Time," 1 hours ").

Тогда это будет выглядеть так: enter image description here

... и после этого я хотел бы перейти к «многовариантной» таблице, где каждое из измерений становится отдельным столбцом. enter image description here

Похоже, что поворот невозможен в Spark SQL, поэтому я не уверен, возможно ли это. Любые указания / подсказки по этому вопросу (и насколько я могу продвинуться) были бы весьма признательны.

...