Apache Beam запись преобразования записи в несколько файлов? - PullRequest
0 голосов
/ 02 октября 2018

Я смотрел на пример wordCount из Apache Beam , и когда я попытался запустить этот пример локально, он записал счет в несколько файлов.Я создал тестовый проект для чтения и записи данных из файла, и даже эта операция записи записывала вывод в несколько файлов.Как получить результат в одном файле?Я использую прямой бегун

1 Ответ

0 голосов
/ 03 октября 2018

Это происходит по соображениям производительности.Вы должны иметь возможность форсировать один файл, используя TextIO.Write.withoutSharding

без Shharding

публичный TextIO.Write WithoutSharding ()

Формирует один файл в качестве выходного и пустой шаблон имени шарда.Этот параметр совместим только с записями без окон.

Для записей без окон ограничение количества сегментов может снизить производительность конвейера.Установка этого значения не рекомендуется, если вам не требуется определенное количество выходных файлов.

Это эквивалентно .withNumShards (1) .withShardNameTemplate ("")

...