Question

Я пытаюсь сгруппировать большое количество ключей, используя Apache Beam.Я не могу использовать объединитель из-за характера данных и логики, используемой в группе.Я использую поток данных shuffler.Какие еще оптимизации можно использовать?Я имею в виду общие соображения, которые следует учитывать при работе с большими группами данных.

Alex Amato · Answer 1 · 12 мая 2018

Как правило, слишком большое количество значений для одного и того же ключа приводит к снижению производительности (известной как «горячая клавиша»).

Один из методов решения этой проблемы заключается в разделении данных на несколько ключей.затем объедините результаты в меньшее количество значений и затем объедините эти результаты еще раз для исходного ключа.

Эта идея поддерживается автоматически, если вы используете правильный параметр в потоке данных.Этот блог предлагает это с помощью Combine.PerKey.withHotKeyFanout или Combine.Globally.withFanout. Блог .Он также содержит некоторые другие предложения, которые могут оказаться полезными.

Я надеюсь, что предложение в этих сообщениях блога поможет вам найти рабочее решение:).

Оптимизация в группировке данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Оптимизация в группировке данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы