Лучшая стратегия разделения для дельты озера для конвейера заданий на структурированную потоковую передачу - PullRequest
0 голосов
/ 21 сентября 2019

В моем сценарии у меня есть 2 задания структурированной потоковой передачи: одна запись в таблицу Delta lake, а вторая - чтение из таблицы delta lake, обработка и запись в другую таблицу.

для структурированной потоковой передачи (которая требуется только длявыбрать новые записи, вставленные после последнего потока), что является лучшим вариантом для раздела, который я должен создать.Если я использую столбец CreatedDateTime в моей таблице, то при следующем чтении из этой таблицы будет использоваться этот раздел.Поскольку я просто использую readstream (), я не уверен, какой раздел он будет использовать.

1 Ответ

0 голосов
/ 22 сентября 2019

Это зависит от самих данных, от того, какой столбец следует использовать для разбиения.Если ваши данные распределяются пропорционально по датам, то да, CreatedDateTime будет работать (как выглядит гистограмма? У вас нет «пиковых» периодов, когда поступает много данных?).Однако, если это не так, ваш первичный ключ может быть более безопасной ставкой.

...