Как читать / записывать сообщения буфера протокола с Apache Spark? - PullRequest
0 голосов
/ 30 августа 2018

Я хочу читать / записывать сообщения буфера протокола из / в HDFS с помощью Apache Spark. Я нашел эти предложенные пути:

1) Конвертируйте сообщения protobuf в Json с помощью библиотеки Gson Google, а затем считывайте и записывайте их с помощью SparkSql. Это решение объясняется в этой ссылке Но я думаю, что сделать это (конвертировать в json) - дополнительная задача.

2) Конвертировать в файл Parquet. Есть parquet-mr и sparksql-protobuf проектов github для этого способа, но я не хочу паркетный файл, потому что я всегда работаю со всеми столбцами (не некоторыми столбцами) и, таким образом, Parquet Format не дает мне никакой выгоды (по крайней мере, я так думаю).

3) ScalaPB . Может быть, это то, что я ищу. но на языке скала, что я ничего не знаю об этом. Я ищу решение на основе Java. Это видео на YouTube представляет scalaPB и объясняет, как его использовать (для разработчиков scala).

4) Через использование файла последовательности, и это то, что я искал, но ничего не нашел об этом. Итак, мой вопрос: как я могу записать сообщения protobuf в файл последовательности в HDFS и из этого? Любое другое предложение будет полезно.

5) Через твиттер Слон-птица Библиотека.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...