25 миллионов строк не звучат достаточно большими, чтобы оправдать использование HBase, хотя шаблон использования подходит. Вам нужен узел имени, трекер заданий, мастер, а затем и серверы вашего региона, поэтому вам понадобится минимум 5 узлов для запуска HBase любым приемлемым способом. Ваши строки настолько малы, что я предполагаю, что это может быть 10 ГБ данных, поэтому хранение этих данных на 5 серверах кажется излишним.
Если вы пойдете этим путем (возможно, вы захотите хранить больше чем за неделю данные), есть способы интеграции HBase с реляционными БД. Hive, например, обеспечивает подключение ODBC / JDBC и может запрашивать HBase. Oracle и Teradata обеспечивают интеграцию между программным обеспечением для реляционных БД и нереляционным хранилищем. Я знаю, что Microsoft недавно объявила, что они отказываются от Dryad в пользу интеграции с Hadoop, но я не уверен, насколько далеко продвинулся этот процесс по отношению к SQL Server. И если все, что вам нужно, это «получить список идентификаторов для использования в моем запросе SQL», вы, конечно, можете написать что-то самостоятельно достаточно легко.
Я думаю, что HBase очень увлекателен, и могут быть вещи, которые вы не упомянули, которые могут подтолкнуть вас к этому (например, высокая доступность). Но моя интуиция говорит, что вы, вероятно, можете уменьшить свой реляционный БД гораздо дешевле, чем перейти на HBase.