Как настроить мой Kafka Connect в распределенном режиме для лучшей производительности - PullRequest
0 голосов
/ 04 февраля 2020

Я запускаю Kafka Connect для поиска Elasti c в распределенном режиме. В настоящее время у меня есть 2 экземпляра EC2 (тип экземпляра t2.2xlarge)

Number of vCPUs 8
Memory  32 Gb

Я запускаю kafka connect на вышеупомянутом типе экземпляра с максимальной задачей как 2. Я планирую помещать тяжелые путы от производителей, которые будут помещать записи в ElastciSearch, используя Kafka connect.

Тяжелые путы означают 10000 записей в секунду.

Имея это в виду, как мне создать Kafka connect.

Например,

  1. сколько задач потребуется для обработки, чтобы записи могли go быстрее в ES?

  2. Достаточно ли 2 экземпляра EC2 для этой нагрузки или мне нужно больше?

  3. Сколько задач можно создать для одного экземпляра EC2?

  4. Лучше иметь один больший EC2 или лучше иметь несколько EC2 с меньшим экземпляром?

  5. Как я могу подтвердить, что все записи обрабатываются из Kafka topi c в ES с помощью Kafka Connect?

Как мне оценить производительность Kafka Connect?

На данный момент я не использую реестр схем.

Пожалуйста, предложите

1 Ответ

0 голосов
/ 04 февраля 2020

У меня есть 2 экземпляра EC2

Таким образом, вы можете запустить только 2 рабочих. Добавьте больше (в разных AZ) для лучшей отказоустойчивости. Вам нужно добавить мониторинг процессора и памяти, чтобы знать, нужно ли вам добавлять больше экземпляров.

при выполнении kafka connect на вышеприведенном типе экземпляра с максимальным заданием, равным 2.

Вы можете иметь до столько задач, сколько входных разделов topi c.

10000 записей в секунду

Кафка, безусловно, справится с этим. Вы должны сравнить свои индексы ES отдельно.

Как я могу подтвердить, что все записи отправляются из Kafka topi c в ES с использованием Kafka connect

Вы будете отслеживать отставание группы потребителей, так же, как и любое другое другое потребительское задание

Лучше иметь один больший EC2 или лучше иметь несколько EC2 с меньшим экземпляром

"Лучше" - относительное. Если вы хотите, чтобы производительность превышала затраты, выберите более крупные экземпляры и выделите больше пространства кучи.

...