Я пытаюсь использовать python и pandas, чтобы получить первый реестр с типом A или B и первый реестр с типом C или D и переместить его в одну строку. Я хочу это за Id.
Мне будет легко продемонстрировать на этом примере
Id,type,Datetime
1, A, 2018-01-01
1, I, 2018-01-02
1, I, 2018-01-03
1, C, 2018-01-04
2, I, 2018-01-01
2, B, 2018-01-02
2, J, 2018-01-03
2, K, 2018-01-04
2, D, 2018-01-05
2, C, 2018-01-06
3, A, 2018-01-03
3, D, 2018-01-09
4, A, 2018-01-03
4, D, 2018-01-05
4, C, 2018-01-04
Я хотел, чтобы результат обработки был
Id, ProcessEvent, ProcessDate, DispatchedEvent, DispatchedDate
1, A, 2018-01-01, C, 2018-01-04
2, B, 2018-01-01, D, 2018-01-05
3, A, 2018-01-03, D, 2018-01-09
4, A, 2018-01-03, C, 2018-01-04
В настоящее время я пытаюсь сделать это, используя python и pandas в кластере Databricks, но я открываюсь для других идей, которые мне нужны, в файлах, которые достигают всего нескольких ТБ, поэтому это большой набор данных, поэтому скорость должна помните, и я не могу сохранить весь набор данных в памяти.