Я изучаю способы разработки сканера в масштабе Google и, следовательно, изучаю возможное решение с использованием Kafka.
Недавно я узнал, что количество разделов Kafka ограничено тысячами и не будет превышать этого уровня. а также общеизвестным фактом является наличие одного потока на раздел (с группой потребителей или без нее).
Мой вопрос заключается в том, как создать высокопроизводительный сканер для сканирования с десятками и тысячами параллельных рабочих.
- Одним из возможных решений является создание сотен тем и тысяч разделов и потребителей (в равных количествах).
- или иметь пул потоков для потребителей на разделы, как показано на рисунке ниже
Можно ли исправить / предложить идеальный дизайн, который работает с Kafka?