Вопросы с тегом паркет

0 голосов

0 ответов

NodeJS (JavaScript / TypeScript) - ошибка при чтении файла Parquet

Я пытаюсь прочитать файл партера с помощью nodejs: var parquet = require('parquetjs'); (...

user9750148 / 04 марта 2019

0 голосов

0 ответов

Pyarrow записывает вложенный массив в паркет

Я хочу написать файл партера, который содержит несколько обычных столбцов с данными 1d-массива и...

S.B.G / 04 марта 2019

0 голосов

2 ответов

Python - модуль 'pyarrow' не имеет атрибута 'Table' error

Я использую Python со средой Conda и установил pyarrow с: conda install pyarrow После этого...

Joe / 04 марта 2019

0 голосов

0 ответов

Nodejs - 'parquetjs' - неверная кодировка

Я использую parquetjs модуль узла для чтения файлов паркета. Если файл паркета прост - например,...

Joe / 04 марта 2019

0 голосов

2 ответов

Написание огромных dask-фреймов данных для паркета не хватает памяти

Я в основном конвертирую некоторые csv файлы в parquet.Для этого я решил использовать dask,...

Jonatan Aponte / 04 марта 2019

0 голосов

1 ответ

Как читать несколько паркетных файлов с помощью Type Script?

У меня есть папка с файлами паркета. Как прочитать их все и преобразовать в 1 большой текстовый...

Joe / 04 марта 2019

0 голосов

0 ответов

Выборочная команда копирования красного смещения из формата файла паркета

Есть ли способ выборочно копировать определенные поля из файла паркета?У меня есть ddl файла...

nkramer52 / 02 марта 2019

0 голосов

1 ответ

Ошибка подключения к таблице блоков данных из фабрики данных Azure с помощью соединителя Spark odbc

Нам удалось получить действительное соединение от фабрики данных Azure к нашему кластеру баз данных...

BTV / 01 марта 2019

0 голосов

0 ответов

Сохранение Pandas Dataframe в паркет по частям: схема таблицы не соответствует файлу

Имея огромный SAS-файл, я хотел бы преобразовать его в паркет, сохраняя определенные типы данных,...

Koehler / 01 марта 2019

0 голосов

1 ответ

Как решить проблему библиотеки parquetjs - ошибка с асинхронностью?

Я попытался использовать parquetjs: https://www.npmjs.com/package/parquetjs Код из их примера: var...

Joe / 28 февраля 2019

0 голосов

1 ответ

Spark Structured Streaming writestream не записывает файл, пока я не остановлю работу

Я использую Spark Structured Streaming для классического варианта использования: я хочу прочитать...

Yrah / 28 февраля 2019

0 голосов

0 ответов

Выпуск Spark паркет

У меня есть приложение Spark Streaming (v 2.4.0), которое выводит данные в формате паркета на...

VahagnNikoghosian / 27 февраля 2019

0 голосов

1 ответ

Проверьте магический номер файла паркета в Python

В Python мы можем проверить zip-файл, используя метод zipfile.is_zipfile https://docs.python

Himalay Majumdar / 26 февраля 2019

0 голосов

0 ответов

Как справиться с этим исключением паркета

Я пишу protobuf в Parquet с помощью ProtoParquetWriter, я также пишу в локальную HDFS и пишу только...

T1234 / 26 февраля 2019

0 голосов

0 ответов

Apache Spark (Hadoop) Записывает файл _SUCCESS дважды

У меня есть задание Apache Spark, которое записывает набор данных паркета в хранилище BLOB-объектов...

pdist / 26 февраля 2019

0 голосов

0 ответов

Проблемы с типами данных при преобразовании данных паркета в кадр данных Pandas

У меня проблема с типами файлов при преобразовании файла паркета в фрейм данных. Я делаю bucket =...

clog14 / 25 февраля 2019

0 голосов

1 ответ

Как сохранить многоиндексированные данные pandas на паркет?

Как сохранить кадр данных, показанный в конце, в паркет? Он был построен следующим образом: df_test...

techvslife / 25 февраля 2019

0 голосов

0 ответов

Запись Spark Sql в файл паркета не заканчивается

Я запускаю пакетное задание Spark Sql и намеревался преобразовать дамп таблицы в файл (ы) паркета

Soman Chakraborty / 23 февраля 2019

0 голосов

0 ответов

Схема питона в файле партера была другой

Я преобразовал большой CSV-файл (~ 20 ГБ) в формат паркета через dask import dask.dataframe as dd...

osterburg / 22 февраля 2019

0 голосов

0 ответов

PyArrow: хранить список диктов в паркете, используя вложенные типы

Я хочу сохранить следующий кадр данных pandas в файле паркета с помощью PyArrow: import pandas as...

SergiyKolesnikov / 22 февраля 2019

0 голосов

1 ответ

Сортировка по ключам разделов во время INSERT INTO (Parquet) TABLE с Impala

У меня есть задание ETL, где я хочу добавить данные из CSV-файла в таблицу Impala.В настоящее время...

Ken Wei / 20 февраля 2019

0 голосов

1 ответ

Слияние паркетных файлов с разными столбцами в PySpark

Я пытаюсь объединить несколько файлов паркета, расположенных в HDFS, с помощью PySpark. Эти файлы...

Seeker90 / 18 февраля 2019

0 голосов

1 ответ

Данные раздела Kafka в файл паркета HDFS с использованием проблемы конфигурации соединителя приемника HDFS

Мне нужна помощь по теме kafka, которую я хотел бы поместить в HDFS в формате паркет (с ежедневным...

Yrah / 17 февраля 2019

0 голосов

1 ответ

Kafka-Connect HDFS - Протобуф для паркета

Я пытаюсь использовать kafka-connect-hdfs, но, похоже, это не работает .. Я пытался возиться с...

Ben Yaakobi / 17 февраля 2019

0 голосов

2 ответов

Pandas DataFrame с категориальными столбцами из файла Parquet с использованием read_parquet?

Я конвертирую большие файлы CSV в файлы Parquet для дальнейшего анализа.Я читаю данные CSV в Pandas...

davidrpugh / 17 февраля 2019