У меня есть таблица HBase с примерно 50 миллионами строк, и каждая строка имеет несколько столбцов. Моя цель - извлечь из таблицы те строки, которые имеют заданное значение в данном столбце, например, строки, столбец которых 'col_1' имеет значение 'val_1'.
У меня есть два варианта на выбор:
- сканировать таблицу от начала до конца, проверять каждую строку и видеть, нужно ли ее извлекать или нет;
- построить индексы для этой таблицы (например, индексы для значений в столбце 'col_1'), затем для заданного значения столбца 'val_1' получить все ключи строки, связанные с этим индексом 'val_1', затем пройти через эти ключи строки и получить соответствующие строки. Это, на мой взгляд, будет включать произвольный доступ к исходной таблице hbase.
Кто-нибудь дает мне несколько советов о том, какой вариант работает быстрее, или у вас есть другой лучший вариант?
Большое спасибо!