Вопросы с тегом pyspark

0 голосов

2 ответов

Получить количество нулей на строку в кадре данных PySpark

Вероятно, это дубликат, но каким-то образом я уже давно ищу: Я хочу получить число нулей на строку...

guscht / 21 сентября 2018

0 голосов

1 ответ

Проблема при чтении JSON из Kinesis в Pyspark

Я пытаюсь прочитать потоковые данные JSON из Kinesis в PySpark. Мой JSON выглядит следующим...

Sumit / 21 сентября 2018

0 голосов

0 ответов

Python отстает от серии Pyspark

Я пытаюсь адаптировать этот код Python в pyspark: from statsmodels.tsa.tsatools import lagmat def...

user9176398 / 21 сентября 2018

0 голосов

0 ответов

DStream сохраняет пустой файл в Spark Streaming с помощью Pyspark

Простите, если этот вопрос уже задавался.Я пытаюсь сохранить потоковые данные в HDFS с помощью...

SC_kumar / 21 сентября 2018

0 голосов

1 ответ

Чтение кастомного трансформера pyspark

Поработав с этим в течение долгого времени, в Spark 2.3 я наконец смог сохранить чистый...

Subramaniam Ramasubramanian / 21 сентября 2018

0 голосов

1 ответ

Как написать пользовательскую функцию в скрипте AWS-Glue?

Как мы можем написать пользовательские функции в скрипте AWS-Glue, используя PySpark (Python) на...

Vinay Agarwal / 21 сентября 2018

0 голосов

1 ответ

Pyspark самый надежный способ проверить тип столбца

Если я читаю данные из CSV, по умолчанию все столбцы будут иметь тип «String».Обычно я проверяю...

Ali / 21 сентября 2018

0 голосов

1 ответ

Как привести строку к метке времени с наносекундами в pyspark

Я работаю с данными с отметками времени, которые содержат наносекунды, и пытаюсь преобразовать...

Himanshu Gupta / 21 сентября 2018

0 голосов

2 ответов

PySpark Быстрый метод для разворота данных

Есть ли быстрый и эффективный способ разворачивать данные?Я использовал следующие методы, и хотя...

RonD / 21 сентября 2018

0 голосов

2 ответов

Вопрос о плане миграции сложного конвейера данных

Мой план: Переместить всю обработку данных в Spark (желательно PySpark), чтобы окончательный вывод...

charlesperry / 21 сентября 2018

0 голосов

1 ответ

PySpark: данные не всегда соответствуют схеме - логика для изменения данных

Я новичок в PySpark и работаю над сценарием, читая из .csv файлов. Я четко определил схему ниже, и...

kikee1222 / 20 сентября 2018

0 голосов

1 ответ

PySpark - Как установить значение по умолчанию для pyspark.sql.functions.lag в значение в текущей строке?

Как установить значение по умолчанию для pyspark.sql.functions.lag на значение в текущей строке?...

David / 20 сентября 2018

0 голосов

0 ответов

Рекурсивная функция работает с pandas dataframe, но версия pyspark dataframe генерирует ошибочные результаты при переходе состояний

Я объясняю проблему с небольшим набором данных с 4 столбцами.У меня есть кумулятивная матрица...

Arun / 20 сентября 2018

0 голосов

0 ответов

Pyspark: среднее (целевое) кодирование для категориальных функций spark dataFrame

Я хочу закодировать категориальные характеристики кадра данных искры (df), используя средний...

Saeid SOHEILY KHAH / 20 сентября 2018

0 голосов

1 ответ

Pyspark RDD операции!(Python3, Spark2)

У меня есть файл 'input.txt', содержащий следующее: [10,21,90,34,40,98,21,44,59,21,90,34,29,19, 21...

BossBaby / 20 сентября 2018

0 голосов

1 ответ

PySpark помещает данные в https

У меня есть искровой фрейм данных (PySpark) с данными для 250 000 клиентов.Теперь я хочу отправить...

Christoph Haene / 20 сентября 2018

0 голосов

2 ответов

Spark: Как преобразовать несколько строк в одну строку с несколькими столбцами?

ПРИМЕЧАНИЕ. Это только краткий пример данных.Не имеет смысла по сравнению с реальной командой по...

AntonyP / 20 сентября 2018

0 голосов

1 ответ

Как удалить специальные символы ^ @ из кадра данных в pyspark

Как я могу предотвратить запись специальных символов, т. Е. ^ @, В файл при записи кадра данных в...

darkmatter / 20 сентября 2018

0 голосов

1 ответ

Использование pyspark с pybuilder

Мы устанавливаем pybuilder для нового проекта больших данных.Мы должны проверить, что некоторые...

user6106573 / 20 сентября 2018

0 голосов

2 ответов

Суммируйте столбец в dataframe и возвращайте результаты как int

У меня есть фрейм данных pyspark со столбцом чисел (сумма).Мне нужно сложить этот столбец (сумму),...

user10389226 / 20 сентября 2018

0 голосов

0 ответов

Как сохранить панду DataFrame среди ячеек ноутбука Юпитера

Я использую JupyterHub, который запускается из контейнера Docker в кластере AWS.Я запускаю блокнот...

lugger1 / 20 сентября 2018

0 голосов

1 ответ

Блокнот pyspark AWS JupyterHub для использования модуля pandas

У меня есть докер-контейнер с установленным JupyterHub, работающий на кластере AWS, как описано...

lugger1 / 19 сентября 2018

0 голосов

1 ответ

Генерация месячных временных меток между двумя датами в фрейме данных pyspark

У меня есть некоторый DataFrame со столбцом "date", и я пытаюсь сгенерировать новый...

LDropl / 19 сентября 2018

0 голосов

1 ответ

Отличительная и суммированная агрегация в Spark одной командой

Я немного тренируюсь в Spark и задаюсь вопросом об оптимизации одной из моих задач.Цель проста:...

kacperdominik / 19 сентября 2018

0 голосов

0 ответов

Примените функцию к PySpark DataFrame и создайте новый DataFrame

Я пытаюсь использовать следующий код: addresses = spark.sql('''SELECT street_address...

J. Sell / 19 сентября 2018