Question

Я написал простую программу для чтения CSV (электронная почта) и поиска в хранилище данных для связанного идентификатора.При этом также выполняется поиск электронной почты с шифрованием AES.

Он работал нормально с directrunner с использованием eclipse, но для получения схемы потока данных, которую я использовал dataflowruuner.Это включает график выполнения, но даже для 3-х записей его синус больше 30 минут.Почему?

с использованием - DataflowPipelineOptions options = PipelineOptionsFactory.as(DataflowPipelineOptions.class);

вместо

    PipelineOptions options = PipelineOptionsFactory.fromArgs(option).withValidation().create();

Anton · Answer 1 · 05 декабря 2018

Зависит от специфики вашего конвейера.В общем, время запуска конвейера в потоке данных будет медленнее, чем в режиме прямого запуска.Например, он должен построить и загрузить конвейер, а затем раскрутить машины, которые затем должны получить определение конвейера и начать его выполнение.Выполняя конвейер в непосредственном запуске, вы обычно просто компилируете и запускаете код локально, похожий на любую другую программу.Таким образом, для тривиальных случаев с небольшими наборами данных, которые трудно распараллелить, преимущества производительности при использовании Dataflow не очевидны.

Однако, если конвейер никогда не останавливается в Dataflow, вам нужно посмотреть, есть ли какие-либо ошибки, которыепрепятствуют его завершению (например, могут быть какие-то ошибки аутентификации, регулирование, нехватка ресурсов или что-то еще).Вы можете начать с просмотра Stackdriver: https://cloud.google.com/dataflow/docs/guides/using-stackdriver-monitoring

Некоторые ссылки на документацию, надеюсь, это поможет:

[0] Устранение неполадок в конвейере - https://cloud.google.com/dataflow/docs/guides/troubleshooting-your-pipeline
[1] Прямой бегун - https://beam.apache.org/documentation/runners/direct/
[2] Бегун потока данных - https://beam.apache.org/documentation/runners/dataflow/
[3] Слайды луча + потока данных: https://docs.google.com/presentation/d/1SlzllDkCtWdg18qKFhxB1EkQAW2ZiG-r80BykODcvVY

Google Dataflow работает очень медленно медленно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Google Dataflow работает очень медленно медленно

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы