Question

Я новичок в Spark Framework и мне нужна помощь!

Предположим, что первый DataFrame (df1) хранит время, когда пользователи получают доступ к колл-центру.

+---------+-------------------+
|USER_NAME|       REQUEST_DATE|
+---------+-------------------+
|     Mark|2018-02-20 00:00:00|
|     Alex|2018-03-01 00:00:00|
|      Bob|2018-03-01 00:00:00|
|     Mark|2018-07-01 00:00:00|
|     Kate|2018-07-01 00:00:00|
+---------+-------------------+

Второй DataFrame хранит информацию о том, является ли человек членом организации.OUT означает, что пользователь покинул организацию.IN означает, что пользователь пришел в организацию.START_DATE и END_DATE означают начало и конец соответствующего процесса.

Например, вы можете видеть, что Alex покинул организацию в 2018-01-01 00:00:00, а этот процесс завершился в 2018-02-01 00:00:00.Вы можете заметить, что один пользователь может приходить и уходить из организации в разное время: Mark.

+---------+---------------------+---------------------+--------+
|NAME     | START_DATE          | END_DATE            | STATUS |
+---------+---------------------+---------------------+--------+
|     Alex| 2018-01-01 00:00:00 | 2018-02-01 00:00:00 | OUT    |
|      Bob| 2018-02-01 00:00:00 | 2018-02-05 00:00:00 | IN     |
|     Mark| 2018-02-01 00:00:00 | 2018-03-01 00:00:00 | IN     |
|     Mark| 2018-05-01 00:00:00 | 2018-08-01 00:00:00 | OUT    |
|    Meggy| 2018-02-01 00:00:00 | 2018-02-01 00:00:00 | OUT    |
+----------+--------------------+---------------------+--------+

Я пытаюсь получить такой DataFrame в финале.Он должен содержать все записи из первого DataFrame плюс столбец, указывающий, является ли Person членом организации на момент запроса (REQUEST_DATE) или нет.

+---------+-------------------+----------------+
|USER_NAME|       REQUEST_DATE| USER_STATUS    |
+---------+-------------------+----------------+
|     Mark|2018-02-20 00:00:00| Our user       |
|     Alex|2018-03-01 00:00:00| Not our user   |
|      Bob|2018-03-01 00:00:00| Our user       |
|     Mark|2018-07-01 00:00:00| Our user       |
|     Kate|2018-07-01 00:00:00| No Information |
+---------+-------------------+----------------+

Я попробовал следующий код,но в finalDF у меня ошибка:

org.apache.spark.SparkException: Task not serializable

Также в конечном результате мне нужно datetime.Прямо сейчас в lastRowByRequestId у меня есть только дата без времени.

КОД :

val df1 = Seq(
    ("Mark", "2018-02-20 00:00:00"),
    ("Alex", "2018-03-01 00:00:00"),
    ("Bob", "2018-03-01 00:00:00"),
    ("Mark", "2018-07-01 00:00:00"),
    ("Kate", "2018-07-01 00:00:00")
).toDF("USER_NAME", "REQUEST_DATE")

df1.show()

val df2 = Seq(
    ("Alex", "2018-01-01 00:00:00", "2018-02-01 00:00:00", "OUT"),
    ("Bob", "2018-02-01 00:00:00", "2018-02-05 00:00:00", "IN"),
    ("Mark", "2018-02-01 00:00:00", "2018-03-01 00:00:00", "IN"),
    ("Mark", "2018-05-01 00:00:00", "2018-08-01 00:00:00", "OUT"),
    ("Meggy", "2018-02-01 00:00:00", "2018-02-01 00:00:00", "OUT")
).toDF("NAME", "START_DATE", "END_DATE", "STATUS")

df2.show()

import org.apache.spark.sql.Dataset
import org.apache.spark.sql.functions._

case class UserAndRequest(
                           USER_NAME:String,
                           REQUEST_DATE:java.sql.Date,
                           START_DATE:java.sql.Date,
                           END_DATE:java.sql.Date,
                           STATUS:String,
                           REQUEST_ID:Long
                         )

val joined : Dataset[UserAndRequest] = df1.withColumn("REQUEST_ID", monotonically_increasing_id).
  join(df2,$"USER_NAME" === $"NAME", "left").
  as[UserAndRequest]

val lastRowByRequestId = joined.
  groupByKey(_.REQUEST_ID).
  reduceGroups( (x,y) =>
    if (x.REQUEST_DATE.getTime > x.END_DATE.getTime && x.END_DATE.getTime > y.END_DATE.getTime) x else y
  ).map(_._2)

def logic(status: String): String = {
  if (status == "IN") "Our user"
  else if (status == "OUT") "not our user"
  else "No Information"
}

val logicUDF = udf(logic _)

val finalDF = lastRowByRequestId.withColumn("USER_STATUS",logicUDF($"REQUEST_DATE"))

Moustafa Mahmoud · Answer 1 · 05 февраля 2019

Я проверил ваш код и запустил его.Работает с незначительным обновлением.Я заменил REQUEST_DATE на STATUS.Кроме того, обратите внимание: задача Spark не сериализована. Большинство случаев происходило, когда вы не используете класс case, а из Spark 2.x классы дел автоматически кодируются в задачах Spark.

val finalDF = lastRowByRequestId.withColumn("USER_STATUS",logicUDF($"STATUS"))

Ниже приведен вывод

+---------+------------+----------+----------+------+----------+--------------+
|USER_NAME|REQUEST_DATE|START_DATE|  END_DATE|STATUS|REQUEST_ID|   USER_STATUS|
+---------+------------+----------+----------+------+----------+--------------+
|     Mark|  2018-02-20|2018-02-01|2018-03-01|    IN|         0|      Our user|
|     Alex|  2018-03-01|2018-01-01|2018-02-01|   OUT|         1|  not our user|
|     Mark|  2018-07-01|2018-02-01|2018-03-01|    IN|         3|      Our user|
|      Bob|  2018-03-01|2018-02-01|2018-02-05|    IN|         2|      Our user|
|     Kate|  2018-07-01|      null|      null|  null|         4|No Information|
+---------+------------+----------+----------+------+----------+--------------+

Как объединить 2 датафрейма в Spark (Scala)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как объединить 2 датафрейма в Spark (Scala)?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов