Войти

Запомнить

Регистрация

Лента
Топ
Теги
Новая

Ya Ko 26 июня 2018 22

Быстрый способ вставить вложенный JSON в Hadoop (Spark Java)

0 голосов

Ya Ko / 26 июня 2018

Мне нужно писать в Hadoop около 150B вложенных записей Json в день (используя Spark Java),

Что такое «быстрый» способ сделать это с точки зрения производительности, например:

Создание таблицы Hive и запись файла паркета в HDFS
Или создайте Dataset из Json и используя saveAsTable

Или есть другой способ сделать это?

апаша-искра
Hadoop
улей
HDFS

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.

Похожие темы

Настройка производительности Apache Spark
Как разместить файловые блоки HDFS с одинаковым / общим разделением, примененным для разных файлов / таблиц, в одном узле данных
Перенос данных из mongodb в hdfs
Как избежать прерывания активных запросов Hive / Presto при замене сжатых файлов небольшими файлами в HDFS?
Восстановление таблиц повреждено, когда объем hdfs был на 100%
Spark Performance Issue vs Hive
Spark Connect Hive для HDFS против Spark Connect HDFS напрямую и Hive на вершине?
добавлять окружающие кавычки в поля при загрузке данных в улей
Ошибка куста при попытке загрузить данные метки времени в таблицу кустов hdfs path- Метка времени не доступна для записи
Корневая директория: / tmp / hive на HDFS должна быть доступна для записи. Ошибка приложения Spark.

...