Кафке действительно нужен SSD диск? - PullRequest
0 голосов
/ 12 марта 2020

Нас мало смущают типы дисков, в которых нуждается машина kafka.

В нашем производственном кластере Kafka есть производители, 3 брокера kafka и потребители.

Когда производитель pu sh данные по темам и потребитель читают данные из тем, как избежать ситуации, когда потребитель пытается прочитать данные из разделов topi c, но данные на самом деле не находятся внутри topi c?

Второй - с мы не используем SSD диски в брокерах Kafka, как узнать, когда потребитель читает данные из кеша памяти или с дисков?

1 Ответ

1 голос
/ 12 марта 2020

как избежать ситуации, когда потребитель пытается прочитать данные из тематических разделов, но данные на самом деле не находятся внутри топи c?

Кафка считывает данные последовательно, чтобы не было случайных доступ. Вот почему вы не можете прочитать определенные c данные. (вы можете просто указать смещение для чтения)

Кроме того, поскольку нет произвольного доступа, использование SSD не оказывает существенного влияния на производительность.

Из блога Cloudera ( ссылка ):

Использование SSD вместо вращающихся дисков не показало существенного улучшения производительности для Kafka по двум основным причинам:

  • Кафка пишет к диску асинхронны. То есть, кроме запуска / выключения, никакая операция Kafka не ожидает завершения синхронизации диска c до
    ; Синхронизация диска всегда в фоновом режиме. Вот почему репликация
    как минимум на три реплики имеет решающее значение, поскольку одна реплика
    потеряет данные, которые не были синхронизированы с диском, если произойдет сбой
    .

  • Каждый раздел Kafka сохраняется в виде журнала с последовательной записью. Таким образом, чтение и запись на диск в Kafka являются последовательными, с очень небольшим количеством случайных поисков. Последовательные операции чтения и записи сильно оптимизированы современными операционными системами.

...