У меня приблизительно 2500 таблиц, участвующих в расчете. В моей среде разработки у меня очень мало данных в этих таблицах, 10 - 10000 строк, большинство таблиц находятся в нижней части этого диапазона. Мой расчет будет сканировать все эти таблицы много раз. Хотя весь набор данных помещается в память, доступ к нему через HBase невероятно медленный, с огромным объемом дисковой активности.
Как вы думаете, это поможет уменьшить размер блока hdfs? Я считаю, что если каждая таблица находится в своем собственном блоке, то огромный объем памяти будет потрачен впустую, не позволяя всему набору данных находиться в оперативной памяти. Значительно уменьшенный размер блока позволит системе хранить большинство, если не все данные в оперативной памяти. В настоящее время размер блока составляет 64 МБ.
Последняя система будет использоваться в более крупном кластере с гораздо большим объемом памяти и узлов, это просто для ускорения моей среды разработки.