У меня есть 2000 паркетных файлов в каталоге.Размер каждого файла паркета составляет около 20 МБ
Я пишу код для преобразования большого файла паркета, который у меня есть в виде строк: List<org
В моей папке около 10 файлов с одинаковыми именами столбцов.Я хочу добавить все 10 файлов данных...
У меня есть исходные данные в s3, и мое приложение spark / scala прочитает эти данные и запишет их...
У меня есть некоторый код, который получает файл паркета из AWS S3, используя AWS API.В результате...
Я создал внешнюю таблицу, используя паркет в улье, используя сжатие snappy.Я хочу настроить размер...
Я экспериментирую с памятью, используемой искровым фреймом данных, созданным из файла CSV и файла...
Я читаю файлы из S3 во фрейм данных Pandas: файлы являются паркетами, которые были разделены.Я буду...
Я использую структурированную потоковую обработку Spark (используйте SSS в качестве сокращения...
У меня есть объект Python, который, как я знаю, является загруженным в объект файлом паркета.(У...
У меня есть объект var_1, который содержит: b'PAR1\x15\x....1\x00PAR1 , когда я проверяю тип:...
Я хочу выполнить моделирование данных с помощью Deep-Learning, поэтому я попытался загрузить данные...
Это микрокосм проблемы, с которой я сталкиваюсь, где я получаю ошибку.Позвольте мне попытаться...
Я использую pyspark для ежедневной обработки фиксированного набора записей данных и сохраняю их в...
Мы знаем, что установка parquet.block.size в качестве размера блока HDFS рекомендуется, но это...
У нас есть вложенная (на нескольких уровнях) json в качестве схемы паркета.Схема используется для...
Я работаю в ноутбуке JupyterLab, используя Python 3 с pandas и pyarrow.У меня есть некоторые данные...
У меня есть требование, чтобы иметь возможность проследить происхождение до отдельного файла...
Среда Cloudera, мне нужно реплицировать данные из одного кластера в другой и отбрасывать все...
Мы пытаемся использовать parquet как общий файл между R и Python. 1. Использование...
Spark 2.4.2 в кластере Amazon EMR (1 мастер, 2 узла) с использованием Python 3.6 Я читаю объекты в...
Используя pyspark, я извлекаю 1500 полей из файла JSON, сохраняю их как паркет и создаю внешнюю...
Я пытаюсь экспортировать файл паркетной формы S3 в SQL Server, используя Sqoop, и получаю эту...
Я пытаюсь использовать Apache Spark для загрузки результатов (большого) запроса SQL с несколькими...
Я пытаюсь прочитать данные, хранящиеся в виде партера, в моем хранилище Azure ADLS. Просто...