Вопросы с тегом апаша-искра

1 голос

1 ответ

Как увеличить размер контейнера AM в команде spark-submit? ОШИБКА: контейнер работает за пределами физической памяти

Я пытаюсь запустить приложение spark для некоторых данных в AWS. Я смог обработать целые данные с...

Hotspur / 05 октября 2019

1 голос

1 ответ

Pyspark: как применить к значению фрейма данных другое значение в зависимости от даты в другом фрейме данных

У меня есть мой первый фрейм данных df, который содержит start_date и значение, и мой второй фрейм...

sr9419 / 05 октября 2019

5 голосов

1 ответ

записать спарк-фрейм как массив json (pyspark)

Я хотел бы написать свой искровой фрейм данных в виде набора файлов JSON и, в частности, каждый из...

enneppi / 04 октября 2019

1 голос

0 ответов

Дистанционная искра;Ява;HDFS (Apache Spark (2.4.4)

Настройка У меня есть Apache Spark (2.4.4), работающий в Linux (Ubuntu 18.04.3 LTS (GNU / Linux 4

Ilker Murat Karakas / 04 октября 2019

2 голосов

1 ответ

Добавить файл conf в classpath в Google Dataproc

Мы создаем приложение Spark в Scala с конфигурацией HOCON, конфигурация называется application.conf

pgruetter / 04 октября 2019

0 голосов

0 ответов

Невозможно записать DataFrame Spark в куст, используя presto

Я пишу некоторый код для сохранения DataFrame в базе данных кустов, используя presto df.write

Ahmed Adnane A'mil / 04 октября 2019

1 голос

0 ответов

как удаленно отправлять спарк-задания в кластер Azure HDInsights без Livy

Я хочу отправить искровое задание в кластер Azure hdInsights из потока воздуха, я не хочу...

vermaji / 04 октября 2019

0 голосов

1 ответ

подбор данных обучения из регрессора дерева решений приводит к сбою

Попытка реализовать алгоритм регрессора дерева решений для некоторых обучающих данных, но когда я...

wookieluvr13 / 04 октября 2019

1 голос

0 ответов

Лучшие практики по получению результата случайной проекции в пакете в pyspark

В настоящее время я построил модель BucketedRandomProjectionLSH, чтобы вычислить сходство данных по...

Louis Luk / 04 октября 2019

3 голосов

1 ответ

Не может использовать NumPy с Spark

У меня есть программа Spark, которая запускается локально на моей машине с Windows. Я использую...

Alon / 04 октября 2019

0 голосов

0 ответов

Почему быстрее читать в .csv как RDD в Pyspark?

Надеясь, что кто-то может помочь пролить свет на это. Я читаю 35Gb .csv с S3. Я ожидал, что он...

nciao / 04 октября 2019

0 голосов

0 ответов

Ошибка куста при попытке загрузить данные метки времени в таблицу кустов hdfs path- Метка времени не доступна для записи

Я пытаюсь загрузить файл с меткой времени в мою таблицу кустов, сохранив фрейм данных в путь hdfs....

James Davinport / 03 октября 2019

0 голосов

1 ответ

Распараллелить SparkSession в PySpark

Я хотел бы сделать вычисления для получения 5 лучших ключевых слов в каждой стране и внутри метода,...

Sidi Chang / 03 октября 2019

0 голосов

0 ответов

Как реализовать задачу итеративной оптимизации в Spark?

Предположим, у меня есть следующие два набора данных. Я пытаюсь связать продукты под рукой с их...

Shawn / 03 октября 2019

0 голосов

0 ответов

pyspark (spark 2.4) + в кустарнике json отсутствуют столбцы по сравнению со схемой таблицы

Я сталкиваюсь с тем, что, я думаю, является основной проблемой, но мне на удивление трудно найти...

Jay Cee / 03 октября 2019

0 голосов

0 ответов

Не удалось переименовать S3AFileStatus

Я получаю следующую ошибку при работе на локальном EC2 с 'hadoop-3.1.1' и 'spark-2.4

Kirti / 03 октября 2019

0 голосов

1 ответ

Невозможно экспортировать фрейм данных CSV pyspark в C: \ temp

У меня есть pyspark.sql.dataframe.DataFrame с 1300 строками и 5 столбцами. Я использую следующее...

ecp / 03 октября 2019

0 голосов

0 ответов

Преобразование большого CSV-файла в паркет с использованием pyspark

Я конвертирую большой CSV-файл в файл Parquet (pyspark), пока он выглядит хорошо, пока число строк...

syv / 03 октября 2019

4 голосов

1 ответ

Pyspark - Как объединить за 4 часа окна в группы

У меня есть следующий набор данных: id email Date_of_purchase time_of_purchase 1 abc@gmail.com...

user3642360 / 03 октября 2019

0 голосов

1 ответ

Чтение Excel в Spark Ошибка: InputStream класса ZipArchiveInputStream не реализует InputStreamStatistics

Я пытаюсь читать файлы Excel из COS с помощью spark, например: def readExcelData(filePath: String,...

Ayan Biswas / 03 октября 2019

0 голосов

1 ответ

Как умножить строки над окном в pyspark?

Я хочу реализовать следующую формулу, используя pyspark: Lx_BOP(1) = 1 Lx_BOP(n+1) = Lx_BOP(n) * (1...

Eran Witkon / 03 октября 2019

0 голосов

0 ответов

Исключение безопасности при использовании Hive Warehouse Connector с Spark

Я пытаюсь использовать соединитель хранилища Hive ( hive-warehouse-connector_2.11-1.0.0.3.1.0.53-1

Samrat Mitra / 03 октября 2019

0 голосов

2 ответов

Как добавить постоянный столбец с максимальным значением в фрейм данных pyspark без группировки по

Предположим, что у нас есть фрейм данных PySpark с двумя столбцами, ID (он уникален) и VALUE. Мне...

WorkBench / 03 октября 2019

1 голос

0 ответов

Сжатие СДР с одинаковым количеством элементов, но с ошибками, которые «могут заархивировать СДР с одинаковым количеством элементов в каждом разделе»

Я пытаюсь заархивировать два диска с одинаковым количеством элементов. Но при вызове zip я получаю...

wookieluvr13 / 02 октября 2019

0 голосов

1 ответ

Загрузка файла паркета в таблицу кустов, сохраненную как ошибка паркета

Я просто пытаюсь создать таблицу в кусте, которая хранится в виде файла паркета, а затем...

Coder123 / 02 октября 2019