hbase не делает никакой репликации так, как вы думаете. Он построен поверх HDFS, что обеспечивает репликацию для блоков данных, которые составляют таблицы hbase. Однако только один регион-сервер когда-либо обслуживает или записывает данные для любой данной строки.
Обычно региональные серверы связаны с узлами данных. Все записи данных в HDFS сначала идут на локальный узел, если это возможно, другой узел в той же стойке и другой узел в другой стойке (с учетом коэффициента репликации 3 в HDFS). Таким образом, сервер региона в конечном итоге получит все свои данные с локального сервера.
Что касается блокировки: единственный блок - до тех пор, пока WAL (запись в журнал записи) не будет записана на диск. Это гарантирует, что никакие данные не будут потеряны, поскольку журнал всегда можно воспроизвести. Обратите внимание, что в более старой версии hbase это не сработало, поскольку HDFS до недавнего времени не поддерживала длительную операцию добавления. На данный момент мы находимся в странном состоянии, так как нет официального выпуска Apache Hadoop, поддерживающего и append, и HBase. В то же время вы можете либо применить патч добавления самостоятельно, либо использовать дистрибутив Cloudera (рекомендуется).
HBase имеет связанную функцию репликации, которая позволит вам реплицировать данные из одного кластера в другой.