Я просмотрел множество стековых ссылок и других блогов, и от всех них есть разные ответы.Все ответы...
я хорошо запускаю отправку spark с --master local[*], , но когда я запускаю отправку spark на моем...
Я работаю в кластере Spark 2.3 из 5 узлов, каждый из которых имеет 12 ГБ доступной памяти, и...
У меня есть приложение ac #, которое создает и загружает файлы паркета в удаленную HDFS.Если я...
Мое приложение spark заполняет несколько таблиц SQL, которые обслуживаются службой REST.Данные -...
У меня есть куча паркетных данных в структуре, что-то вроде...
У меня есть список файлов паркета, хранящихся в каталоге. Теперь мне нужно выполнить операцию...
Теперь, когда Spark 2.4 имеет встроенную поддержку формата Avro, я рассматриваю возможность...
Я использую песочницу maprR для тестирования различных настроек в кустах и MaprF.Я получил в...
У меня есть паркетные каталоги, названные так: parquetNames = [NAME1,NAME1_MS,NAME2, NAME2_MQ] Я...
Я пытаюсь записать файл паркета следующим образом в Apache Beam, используя сжатие Snappy records
Когда я запускаю: SELECT anum as anum, COUNT(*) as callCount, SUM(dur*1) as callDuration,...
чтение файла паркета с помощью spark df = spark.read.parquet("path_to_file") df.show(2)...
Я создал файл паркета, используя метод данных dask to_parquet, используя fastparquet в качестве...
Например, у меня есть набор данных, похожий на этот: dataset ├── a=1 │ └── 1.parquet ├── a=2 │ └──...
У меня есть данные, хранящиеся в файлах паркета и таблице кустов, разделенные по годам, месяцам и...
Я не могу обработать файл партера. У меня есть фрейм данных с "family_id" типа String и...
У меня есть несколько таблиц (со строками 100 миллионов строк), которые хранятся в виде внешних...
Я записываю потоковые данные в файлы паркета, используя spark.И я создал внешнюю таблицу улья,...
У меня странная проблема с Azure Data Factory v2.Существует задание Spark, которое запускает и...
Когда я пытаюсь прочитать папку, которая предположительно содержит файлы в формате Parquet, все...
У меня есть датафрейм для панд.я хочу записать этот фрейм данных в файл паркета в S3.Мне нужен...
Я написал скрипт на python 2.7, который использует pyspark для преобразования csv в паркет и другие...
У меня есть локальная папка на linux с тысячами CSV-файлов. Каждый CSV-файл имеет размер ~ 1 МБ....
У меня ~ 250 папок.Каждая папка в день.Каждая папка содержит 24 паркетных файла.Мне нужно прочитать...