Стат. c Данные? Искра; В противном случае настройте Postgres
Если 10 миллиардов строк являются c статичными или редко обновляются, лучше всего будет использовать Spark с соответствующими разделами . Магия c происходит с распараллеливанием, поэтому чем больше у вас ядер, тем лучше. Вы хотите создать разделы размером около половины гигабайта каждый.
Определите размер данных, выполнив SELECT pg_size_pretty( pg_total_relation_size('tablename'));
Разделите результат на количество ядер, доступных Spark, пока вы не получите между 1 / 8 и 3/4 гиг.
Сохранить как паркет , если у вас действительно есть данные stati c или если вы хотите быстро восстановиться после сбоя.
Если исходные данные часто обновляются, вы можете добавить индексы в Postgres. Это может быть так же просто, как добавление индекса для каждого столбца. Разбиение на Postgres также может помочь.
Придерживайтесь Postgres. Новые базы данных не подходят для структурированных данных, таких как ваша. Есть варианты распараллеливания. Аврора, если вы на AWS.
PG-Strom вам не подойдет. У вас простые данные с несколькими столбцами. Включение и отключение их в GPU будет слишком сильно замедлять вас.