Я пытаюсь загрузить данные Parquet в Google BigQuery, чтобы воспользоваться эффективным форматом...
У меня есть файл паркета, содержащий архивные данные из таблицы RDBMS (поэтому в основном уровень...
У меня есть работа с scala spark для записи в s3 в виде файла паркета. Пока это 6 миллиардов...
Я пытался создать большую внешнюю таблицу запросов с файлами паркетных файлов в gcs. Это показывает...
Мне нужно преобразовать данные из JSON в паркет как часть конвейера ETL. В настоящее время я делаю...
До недавнего времени parquet не поддерживал null значения - сомнительная предпосылка. Фактически,...
Есть ли способ заставить файл паркета кодировать столбец pd.DataFrame в качестве заданного типа,...
У меня есть паркетный файл в HDFS, размером около 1 ТБ. В настоящее время данные разбиты методом по...
Мне не удалось найти инструмент или библиотеку с открытым исходным кодом, чтобы сравнить два файла...
Я создал набор данных паркета, прочитав данные в pandas df, используя get_dummies() для данных и...
Я пытаюсь выполнить следующий запрос в Apache Drill. Я запрашиваю данные, хранящиеся в файлах...
Я пытаюсь создать RDD с использованием набора данных, но не могу найти способ сопоставить каждую...
Попытка создать RDD из набора данных, пытаясь сопоставить каждую строку в наборе данных. Получение...
При попытке сопоставления со строкой набора данных, но с большим количеством проблем, я получаю...