Итак, я передаю некоторые json данные из kafka в Spark, используя структурированную потоковую передачу. Данные в форме словаря имеют поле «метка времени». После анализа json и получения отдельных столбцов для каждого ключа я заметил, что поле метки времени находится не в той последовательности, в которой оно было передано в кластер kafka, т.е.
+----------+
| Timestamp|
+----------+
| 1 |
| 2 |
| 6 | <--
| 4 |
| 5 |
| 7 | <--
+----------+
. Есть ли способ убедиться, что данные остаются в последовательности? Одна вещь, о которой я могу думать, это использовать orderby на временной метке с output_mode = "complete". Есть ли другие эффективные альтернативы? Спасибо.