использование java для переноса данных из кассандры в несколько файлов - PullRequest
1 голос

У меня есть таблица со следующей структурой

id | Дата_получения | данные
1 | 13.12.2020 | Алекс: 1
2 | 14.12.2020 | Алекс: 2
3 | 14.12.2020 | vova: 999
4 | 15.12.2020 | vova: 888

Я разделил поле «data» на два поля «name» и «number»

alex = [1,2,3,4,5, ... .]
vova = [999,888,777,666,555, ....]

Какое лучшее решение для группировки данных по имени и перехода к файлам по имени. Одно имя может содержать 6 миллионов записей. Этих имен может быть больше 3000. Поэтому мне пришлось перенести 3000 * 6 миллионов записей (более 18 миллиардов). Поэтому после миграции у меня должны быть файлы, содержащие alex и vova (alex.bin, vova.bin). После миграции в файл я должен загрузить файл в облачное хранилище Google

...