У меня есть очень большой файл CSV (скажем, 1 ТБ), который мне нужно получить из GCS на BQ. Хотя в BQ действительно есть CSV-загрузчик, имеющиеся у меня CSV-файлы довольно нестандартны и не могут нормально загружаться в BQ без его форматирования.
Обычно я загружал файл csv на сервер, чтобы «обработать» его, и сохранял его либо непосредственно в BQ, либо в avro-файле, который BQ может легко проглотить. Тем не менее, файл (ы) довольно большой, и вполне возможно (и, вероятно), что у меня не было бы хранилища / памяти для пакетной обработки без написания большого количества кода для его оптимизации / потоковой передачи.
Это хороший вариант использования Cloud Dataflow? Есть ли уроки, как получить файл формата "X" из GCS в BQ? Любые учебные указатели или примеры скриптов для этого были бы хороши.