Как объединить несколько загрузок CSV (на разных машинах) в Google Storage в один конечный файл - PullRequest
0 голосов
/ 21 октября 2019

У нас есть несколько машин, каждая из которых обрабатывает подмножество проблем, и каждая экспортирует файл чанка csv. Нам нужен один окончательный CSV-файл, который будет объединять все файлы чанка, но у нас не будет ни одного финального процесса, запущенного после того, как все машины будут выполнены. По сути, мы хотели бы, чтобы каждая машина добавляла в файл, но они находятся в облачном хранилище Google.

Мы думаем о разных подходах - возможно, используем pub / sub для добавления к файлу каждый разон получает набор строк?

Я видел операцию compose, но ее нужно запустить после загрузки всех файлов, что снова потребует последнего шага.

Любые предложения будутдобро пожаловать, это будет один итоговый файл из примерно 500 тыс. строк, и мы говорим о нескольких кусках, возможно, до 10.

1 Ответ

0 голосов
/ 22 октября 2019

Я бы хотел иметь тему pubsub для добавления файла, compose , каждый раз, когда у вас есть набор строк.

Эту задачу можно выполнить какпоследний шаг, но вы также можете рассматривать его как задачу составления пары, вам просто нужно проверить, что тема pubsub не выполняется дважды, поскольку это может произойти, и рекомендуется здесь

...