Предположим, что я не такой инструмент, как Hive или HBase (Spark все равно не может использовать индексы Hive для оптимизации), что является лучшим способом записи данных в HDFS, чтобы ускорить доступ к этим данным.
Я думал о том, чтобы сохранить много разных файлов, имя которых идентифицируется ключами. Допустим, у нас есть база данных людей, которые идентифицированы по имени и фамилии. Может быть, я мог бы сохранить файлы с первыми буквами имени и фамилии. Таким образом, у нас будет 26x26 = 676 файлов. Так, например, если мы хотим увидеть запись Алана Уокера, нам нужно просто загрузить файл AW. Это был бы хороший способ или есть намного лучшие способы сделать это?