Как разделить CSV-файл на основе значения столбца в облачном потоке данных Python SDK - PullRequest
0 голосов
/ 17 октября 2019

Я хотел бы прочитать CSV-файл из GCS, используя ReadFromText и хотел бы разбить на несколько файлов на основе значений столбцов.

See sample data below 
Col1    Col2    Col3
Value1  data    date
value2  data    date_1
Value3  data    date_2
Value4  data    date_3
Value5  data    date

Я хочу создать папку, а именно дату, дату_1..3 и префикс имени файла с датой, соответствующие данным должны быть загружены в файл.

1 Ответ

0 голосов
/ 17 октября 2019

Обработайте каждый элемент, чтобы сгенерировать KV, где Ключ становится метаданными о местоположении, в которое вы хотите, чтобы Значение получилось. Затем посмотрите на использование динамических назначений для записи файлов.

Пример использования ключа с FileIO - в этом ответе для SO .

...