Изменить сбор данных с помощью Apache Spark - PullRequest
1 голос
/ 29 сентября 2019

Каким будет лучший способ решения проблемы с использованием Apache Spark?

Мой набор данных выглядит следующим образом:

ID, DATE,       TIME, VALUE
001,2019-01-01, 0010, 150
001,2019-01-01, 0020, 150
001,2019-01-01, 0030, 160
001,2019-01-01, 0040, 160
001,2019-01-01, 0050, 150
002,2019-01-01, 0010, 151
002,2019-01-01, 0020, 151
002,2019-01-01, 0030, 161
002,2019-01-01, 0040, 162
002,2019-01-01, 0051, 152

Мне нужно сохранить строки, когда было указано значение VALUE.изменено для каждого идентификатора.

Мой ожидаемый результат -

ID, DATE,       TIME, VALUE
001,2019-01-01, 0010, 150
001,2019-01-01, 0030, 160
001,2019-01-01, 0050, 150
002,2019-01-01, 0010, 151
002,2019-01-01, 0030, 161
002,2019-01-01, 0040, 162
002,2019-01-01, 0051, 152

1 Ответ

2 голосов
/ 29 сентября 2019

Вы можете использовать lag функцию с окном:

val df = Seq(
  ("001", "2019-01-01", "0010", "150"),
  ("001", "2019-01-01", "0020", "150"),
  ("001", "2019-01-01", "0030", "160"),
  ("001", "2019-01-01", "0040", "160"),
  ("001", "2019-01-01", "0050", "150"),
  ("002", "2019-01-01", "0010", "151"),
  ("002", "2019-01-01", "0020", "151"),
  ("002", "2019-01-01", "0030", "161"),
  ("002", "2019-01-01", "0040", "162"),
  ("002", "2019-01-01", "0051", "152")
).toDF("ID", "DATE", "TIME", "VALUE")


df
  .withColumn("change",coalesce($"VALUE"=!=lag($"VALUE",1).over(Window.partitionBy($"ID").orderBy($"TIME")),lit(true)))
  .where($"change")
  //.drop($"change")
  .show()

дает:

+---+----------+----+-----+------+
| ID|      DATE|TIME|VALUE|change|
+---+----------+----+-----+------+
|001|2019-01-01|0010|  150|  true|
|001|2019-01-01|0030|  160|  true|
|001|2019-01-01|0050|  150|  true|
|002|2019-01-01|0010|  151|  true|
|002|2019-01-01|0030|  161|  true|
|002|2019-01-01|0040|  162|  true|
|002|2019-01-01|0051|  152|  true|
+---+----------+----+-----+------+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...