Привет, совершенно новичок в DataStax Analytics / Spark и собираюсь по кругу, пытаясь сделать что-то, что может быть невозможно даже через Spark SQL. Нужны советы. Это с DataStax Enterprise (DSE) 6.7 и Apache Spark 2.2.3.9
У меня есть огромный набор данных в Cassandra (DSE), и я теперь работаю над многоуровневой аналитикой DSE с AlwaysOn SQL ( и, следовательно, Spark), поэтому я могу попытаться выполнить прореживание.
У меня есть столбец, который содержит названия различных измерений (может изменяться во времени; т.е. я не всегда знаю, какие измерения могут быть добавлены ). Это выглядит примерно так:
Что я хотел бы сделать в качестве первого прохода, так это выбрать некоторую форму агрегирования интервала (среднее, первое и т. Д. c). ). В моем примере здесь я хочу выбрать первое измерение (время, пара значений) для каждого часового окна. Так что-то вроде Value, Time from "window (Time," 1 hours ").
Тогда это будет выглядеть так:
... и после этого я хотел бы перейти к «многовариантной» таблице, где каждое из измерений становится отдельным столбцом.
Похоже, что поворот невозможен в Spark SQL, поэтому я не уверен, возможно ли это. Любые указания / подсказки по этому вопросу (и насколько я могу продвинуться) были бы весьма признательны.