Спасибо за интерес к моему вопросу.
Прежде чем я начну, я хотел бы сообщить вам, что я новичок в Hadoop & HBase. Пока что я нахожу Hadoop очень интересным и хотел бы внести свой вклад в будущем.
Меня в первую очередь интересует повышение производительности HBase. Для этого я изменил Writer
методы в /io/hfile/Hfile.java
HBase таким образом, чтобы он выполнял высокоскоростную сборку буферизованных данных и затем напрямую записывал в Hadoop, чтобы впоследствии он мог быть загружен HBase.
Теперь я пытаюсь найти способ сжатия пар ключ-значение, чтобы можно было сэкономить пропускную способность. Я сделал много исследований, чтобы выяснить, как; а затем понял, что HBase имеет встроенные библиотеки сжатия.
Я сейчас смотрю на SequenceFile (1) ; setCompressMapOutput (2) (устарело); и сжатие классов (3) . Я также нашел учебник по MapReduce в Apache.
Может кто-нибудь объяснить, что такое "SequenceFile" и как я могу реализовать эти библиотеки и алгоритмы сжатия? Эти разные классы и документы меня так смущают.
Я бы искренне признателен за вашу помощь.
-
Гиперссылка:
(1): hadoop.apache.org/common/docs/current/api/org/apache/hadoop/io/SequenceFile.html
(2): hadoop.apache.org/common/docs/current/api/org/apache/hadoop/mapred/JobConf.html#setCompressMapOutput%28boolean%29
(3): www.apache.org/dist/hbase/docs/apidocs/org/apache/hadoop/hbase/io/hfile/Compression.html