Создать класс значения для файлов последовательности во время выполнения - PullRequest
0 голосов
/ 12 марта 2011

У меня есть некоторые типы данных, которые я должен загрузить в HDFS как файлы последовательности.

Изначально я думал о создании файла .jr во время выполнения в зависимости от типа схемы и использовал инструмент rcc DDL от Hadoop для создания этих классов и их использования.

Но, глядя на документацию по rcc, я вижу, что она устарела.Я пытался увидеть, какие другие варианты у меня есть, чтобы создать эти классы значений для типа данных.

Это проблема, поскольку я узнаю метаданные данных, которые должны быть загружены во время выполнения, вместе с потоком данных.Итак, у меня нет выбора, кроме как создать класс Value во время выполнения, а затем использовать его для записи (key, vale) в SequenceFile.Writer и, наконец, сохранить его в HDFS.

Если у кого-то есть какое-либо решение для этогов виду, я буду действительно приложение Спасибо, JJ

1 Ответ

0 голосов
/ 13 марта 2011

Вы можете попробовать поискать другие платформы сериализации, например Буферы протокола , Thrift или Avro . Возможно, вы захотите сначала взглянуть на Avro, поскольку он не требует статической генерации кода, что может быть более подходящим для вас.

Или, если вы хотите что-то действительно быстрое и грязное, каждая запись в SequenceFile может быть HashMap, где ключ / значения - это имя поля и значение.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...