Сохранить таблицу базы данных в файл orc в s3 - PullRequest
0 голосов
/ 05 февраля 2019

У меня есть вопрос о сохранении данных в файлы orc (я пытаюсь использовать apache orc, но я не уверен, что это лучший выбор).

Я работаю над сохранением таблиц базы данных вorc файлы на s3 и для этого я пытаюсь реализовать такие шаги:

  1. чтение данных из таблицы сервера ms в ResultSet
  2. запись этих данных на принтер orc (что-то похожее на CSVPrinter от commons-csv).Я хочу сделать это, чтобы получить аналогичную цепочку (я использую общую библиотеку CSV в примере).Тогда я смог бы получить байты файла от ByteArrayOutputStream

    CSVPrinter(OutputStreamWriter(ByteArrayOutputStream, UTF_8), csvFormat) 
    

    Я нашел класс OutStream в apache orc, но, честно говоря, я не уверен, как использовать его для построения такой цепочки.И я не уверен, что это то, что я ищу.

  3. получить байты от орка-принтера и сохранить его на s3.

Итак, чтобы сделать второй и третий шаги, я искал, как обернуть OutputStreamWriter, используя OutStream (из apache orc), но я не могу найти способ, как это сделать.Большинство примеров записывают данные непосредственно в файл orc в системе hdfs.Может я выбрал не ту библиотеку?Поэтому дайте мне, пожалуйста, какие-либо предложения, как записать данные в файл orc.Заранее спасибо

...