У меня есть файл json, как показано ниже:
{"ts": "01/03/2018 15:48:09+0530", "userid": "user1", "eventid":"EnterTripDetail" }
{"ts": "01/03/2018 15:48:09+0530", "userid": "user2", "eventid":"EnterTripDetail" }
{"ts": "01/03/2018 15:48:10+0530", "userid": "user1", "eventid":"ClickToPayTrip" }
{"ts": "01/03/2018 15:48:10+0530", "userid": "user2", "eventid":"ClickToPayTrip" }
{"ts": "01/03/2018 15:48:11+0530", "userid": "user1", "eventid":"SubmitPayment" }
Текущий код:
import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
Dataset<Row> df = spark.read().json("/examples/transaction.json");
df.show();
Теперь я хочу узнать список пользователей, которые не завершили платежи в течение 10 минутв моем случае я хочу знать пользователей, чье время между ClickToPayTrip
и SubmitPayment
превышает 10 минут или если нет SubmitPayment
записи пользователя.