Мне нужно писать в Hadoop около 150B вложенных записей Json в день (используя Spark Java),
Что такое «быстрый» способ сделать это с точки зрения производительности, например:
- Создание таблицы Hive и запись файла паркета в HDFS
- Или создайте
Dataset
из Json и используя saveAsTable
Или есть другой способ сделать это?