Я создаю Кафку и искровой потоковый трубопровод.Здесь данные автоматически сериализуются с...
Попытка преобразовать серию сжатых gz в формат паркета. В процессах пытаются сделать какие-то...
Scala 2.12 и Spark 2.2.1 здесь.Я использовал следующий код для записи содержимого DataFrame в S3:...
Не удалось заставить его выполнить преобразование data['date']= pd
Поддерживает ли Parquet хранение различных кадров данных различной ширины (числа столбцов) в одном...
Я пытаюсь прочитать файл паркета в pandas dataframe, выполнить некоторые манипуляции и записать его...
Я пытаюсь создать таблицу AWS Athena из файла Parquet, хранящегося в S3, используя следующее...
У меня есть следующий код Scala, который я использую для записи данных из файла json в таблицу в...
Учитывая, что файлы Avro и Parquet содержат и данные, и схему для этих данных, то в Spark должна...
Spark 2.x здесь.Мой код: val query = "SELECT * FROM some_big_table WHERE something >...
Я много исследовал эту тему. У меня есть набор данных размером 3 ТБ. Ниже приведена схема данных...
Я хочу запустить sql для своих данных паркета в spark, используя следующий код, val parquetDF =...
Я просто делаю простой запрос, подобный этому, но появляются некоторые исключения. insert overwrite...
У меня около 8 миллионов строк данных и около 500 столбцов. Когда я пытаюсь записать его с помощью...
У меня есть куча файлов паркета, и я создал внешние таблицы, используя Impala's CREATE EXTERNAL...
Мое Java-приложение потребляет данные в реальном времени, а затем публикует их в файл ORC на S3 ....
У меня есть папка с множеством паркетных файлов, имена которых следующие:...
Я понял, что снимок hdfs отслеживает добавленные или удаленные файлы из каталога.Каково поведение,...
Есть несколько путей к паркетному файлу: / A / B / C = 'str1' / д = 'ул' / A / B / C = 'str2' / д =...
Я запускаю Spark в автономном режиме с каталогом Hive.Я пытаюсь загрузить данные из внешнего...
Я использую паркетные инструменты для объединения паркетных файлов.Но, похоже, что инструментам для...
У меня есть таблица улья, созданная так: CREATE EXTERNAL TABLE test_db.test( region STRING,...
Я мог бы найти много ответов в Интернете, используя sparklyr или различные пакеты свечей, которые...
Недавно мы обнаружили, что из-за проблемы в нашем ETL наши паркетные блоки содержали повторяющиеся...
Я пытаюсь запустить параллельные потоки в задании на искру. Это работает без проблем, когда я...