Проблема согласованности S3 - PullRequest
0 голосов
/ 22 мая 2019

Невозможно полностью прочитать данные с S3, если чтение происходит сразу после обновления местоположения s3 новыми данными


Я использую S3 для хранения некоторых данных в формате паркетного файла. Эти данные обновляются (перезаписываются) через несколько часов каждый день. Проблема в том, что когда операция чтения происходит во время обновления местоположений s3 новыми данными, операция чтения дает частичные данные. Я попытался заполнить разные ключи S3, а затем синхронизировать текущее местоположение s3 с помощью команды синхронизации s3, но все же у меня возникает проблема частичного чтения, если чтение происходит во время синхронизации s3. Думаете, если это правильный подход для хранения данных в S3?

1 Ответ

0 голосов
/ 22 мая 2019

Проблема, которую вы описываете, является именно той, которая была решена Delta Lake, созданной и недавно открытой с помощью Databricks.Это в основном должно решить вашу проблему чтения частичных данных или устаревших данных.

См .:

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...