Вопросы с тегом pyspark

2 голосов

1 ответ

Не удается импортировать pyspark из pipenv virtualenv, так как он не может найти py4j

Я создал образ докера, содержащий искру и pipenv. Если я запускаю python в pipenv virtualenv и...

jamiet / 16 октября 2019

0 голосов

2 ответов

Соединение двух фреймов данных pyspark по уникальным значениям в столбце

Допустим, у меня есть два фрейма данных pyspark, users и shops. Несколько примеров строк для обоих...

Bitswazsky / 16 октября 2019

0 голосов

1 ответ

PySpark UDF не распознает количество аргументов

Я определил функцию Python "DateTimeFormat", которая принимает три аргумента Столбец Spark...

Sri / 16 октября 2019

0 голосов

1 ответ

Как запускать команды bash через pyspark?

Я пытаюсь запускать команды bash на spark через Python. Мой простой текущий код выглядит следующим...

user3243499 / 16 октября 2019

1 голос

1 ответ

Загрузка Spark 2.x DataFrame из MongoDB GridFS в Python

Я использую pyspark sql с keras под elephas. Я хочу попробовать какую-то распределенную обработку...

Cynede / 16 октября 2019

0 голосов

2 ответов

Pyspark SQL: как создать новое значение из значения столбца плюс имя другого столбца?

Я пытаюсь получить новое значение, которое приходит из значения столбца плюс имя другого столбца....

han / 16 октября 2019

0 голосов

0 ответов

Писпарк |ModuleNotFoundError: нет модуля с именем 'ad'

Используя PySpark, я пытаюсь добавить новый столбец к существующему фрейму данных, где записи в...

Siddharth Satpathy / 16 октября 2019

1 голос

1 ответ

Spark 2.4.4 Конфигурация Avro Pyspark Shell

Мне кажется, я следую правильной документации , чтобы заставить pyspark записывать файлы avro. Я...

Paul Bendevis / 16 октября 2019

0 голосов

1 ответ

Удалить Array Column из массива pyspark

Предположим, у меня есть следующая структура данных в фрейме данных pyspark: arr1:array...

Paul Velthuis / 15 октября 2019

0 голосов

1 ответ

Таблица усечения pyspark без перезаписи

Мне нужно обрезать таблицу перед вставкой новых данных. У меня есть следующий код для вставки: df

WiseStrawberry / 15 октября 2019

1 голос

0 ответов

Как отправлять логи из функции UDF в Pyspark

Если вы добавите какой-либо вид входа в функцию UDF в PySpark, она нигде не появится. Это какой-то...

Géza Hodgyai / 15 октября 2019

0 голосов

1 ответ

Как сохранить номер в тексте

У меня есть дата-фрейм pyspark, я хотел бы улучшить приведенное ниже регулярное выражение. Я хочу...

daddou06 / 15 октября 2019

0 голосов

1 ответ

Кумулятивный подсчет с использованием искровой структурированной потоковой передачи

Я хочу рассчитать совокупное количество значений в столбце фрейма данных за последние 1 час,...

bioinformatician / 15 октября 2019

0 голосов

1 ответ

Как: данные Pyspark сохраняют использование и повторное чтение

Я новичок в pyspark, и у меня появляется следующая ошибка: Py4JJavaError: An error occurred while...

Mike / 15 октября 2019

0 голосов

0 ответов

ExecuteSparkInteractive возвращает JSON в виде открытого текста

Я использую ExecuteSparkInteractive на nifi-1.9.2. Основная идея состоит в том, чтобы получить...

Hitesh Ghuge / 15 октября 2019

0 голосов

0 ответов

PySpark DataFrame как вывод задачи Луиджи

Я делаю ETL с Луиджи и Spark Standalone. Я получаю CSV-файл, применяю преобразования, а затем...

Jesus Sono / 15 октября 2019

0 голосов

1 ответ

Pyspark - функция UDF сразу после создания столбца

Я пытаюсь применить функцию UDF сразу после создания столбца. Но у меня возникла проблема: Cannot...

LaSul / 15 октября 2019

0 голосов

2 ответов

Является ли команда load в spark действием или преобразованием?

df = spark.read.format('csv').load('...') Насколько я понимаю, load является...

j raj / 15 октября 2019

0 голосов

2 ответов

Как сохранить модель Pyspark в файл Pickle

Как сохранить модель pyspark в файл маринования final_data=output_fixed.select('features'...

Biplab Behura / 15 октября 2019

0 голосов

1 ответ

Команда Pyspark не распознана (Ubuntu)

Я успешно установил pyspark, используя anaconda, и настроил пути в файле .bashrc. После ввода...

Tushar Patil / 15 октября 2019

0 голосов

0 ответов

Percentile_approx не работает в Pyspark, возвращает то же значение

Я пытаюсь получить 25,50 и 75 процентилей, но мой код работает не очень хорошо, я пытаюсь перевести...

Fernando / 15 октября 2019

0 голосов

0 ответов

Sparksql получает исключение тайм-аута трансляции

У меня следующий код pyspark для агрегирования подсчета чего-либо df_total_asin_count_stat =...

Jimmy Mo / 15 октября 2019

0 голосов

2 ответов

Пространство кучи Java OutOfMemoryError в режиме клиента pyspark

Я работаю в режиме клиента pyspark. Конфигурация системы: 32 ГБ ОЗУ и 32 ядра. Моя память драйвера...

vishwajeet Mane / 15 октября 2019

1 голос

0 ответов

Самый быстрый способ запуска операций с колонками в Spark

Я хочу извлечь некоторые статистические измерения из больших Spark DataFrames (приблизительно 250K...

K.O.T. / 15 октября 2019

2 голосов

2 ответов

Получить верхние значения на основе составного ключа для каждого раздела в Spark RDD

Я хочу использовать следующий rdd rdd = sc.parallelize([("K1", "e", 9),...

Samson / 15 октября 2019