Вопросы с тегом pyspark

0 голосов

1 ответ

Как найти в столбце Dataframe отображение «один к одному» или «один ко многим» в pyspark?

У меня есть кадр данных, как показано ниже: df0 = sc.parallelize([ (1, 3), (2, 3), (1, 2) ])

Miguel A. Friginal / 04 ноября 2018

0 голосов

1 ответ

create_dynamic_frame_from_catalog возвращает ноль результатов

Я пытаюсь создать динамический связующий фрейм данных из таблицы athena, но продолжаю получать...

Fadi Kfoury / 04 ноября 2018

0 голосов

1 ответ

Найдите 3 ближайших даты в кадре данных Spark по некоторым критериям, используя pyspark

У меня есть следующие кадры данных искры: - df1 id dia_date 1 2/12/17 1 4/25/16 2 12/8/17 2 6/12/11...

Zxxxxx / 04 ноября 2018

0 голосов

2 ответов

Как сравнить пару столбцов, используя udf в pyspark?

У меня есть датафрейм, как показано ниже +---+---+---+ | t1| t2|t3 | +---+---+---+ |0 |1 |0 |...

Sai / 04 ноября 2018

0 голосов

1 ответ

Нужна помощь в понимании исполнения pyspark на пряжу в качестве мастера

У меня уже есть некоторая картина архитектуры пряжи, а также искровой архитектуры. Но когда я...

akhil pathirippilly / 03 ноября 2018

0 голосов

2 ответов

столбец изменения pyspark dataframe с двумя массивами в столбцы

Я искал вокруг и не нашел способа реструктурировать столбец информационного фрейма, чтобы...

deanw / 03 ноября 2018

0 голосов

0 ответов

прогноз вероятности логистической регрессии pypsark

Я применил Лойистическую регрессию в pyspark и кодах ниже; import numpy from pyspark.ml.feature...

melik / 03 ноября 2018

0 голосов

1 ответ

Pyspark withColumn Not Returning Dataframe

У меня есть фрейм данных 'df', который я анализирую. from pyspark.sql.functions import...

mushg / 03 ноября 2018

0 голосов

1 ответ

Выполнение запросов непосредственно к разделенным файлам с помощью Pyspark

Здесь упоминается, что мы можем выполнить запрос непосредственно к одному файлу, как этот. df =...

user2939212 / 03 ноября 2018

0 голосов

1 ответ

Как добавить строки для отсутствующей комбинации данных и приписать соответствующие поля 0

У меня есть комбинация домена и месяца с общим количеством заказов в соответствующем месяце. Я...

Dwipam Katariya / 03 ноября 2018

0 голосов

1 ответ

Заменить все значения столбцов с помощью операции Window?

Фрейм Hi Data создан, как показано ниже. df = sc.parallelize([ (1, 3), (2, 3), (3, 2), (4,2), (1,...

Miguel A. Friginal / 02 ноября 2018

0 голосов

0 ответов

Сортировка данных после уменьшенияByKey

У меня есть pyspark Dataframe, который я создал с помощью метода rdd reduceByKey (поэтому есть...

Nevermore / 02 ноября 2018

0 голосов

1 ответ

pyspark.sql.utils.AnalysisException: невозможно определить схему для паркета. Это должно быть указано вручную .;

Ответ на этот вопрос отличается от приведенного в посте выше Я получаю сообщение об ошибке pyspark

Taylrl / 02 ноября 2018

0 голосов

1 ответ

Как запустить локальный скрипт Python на удаленном кластере Spark?

У меня есть локальный скрипт Python, работающий в записной книжке Jupyter, который выполняет...

p_mcp / 02 ноября 2018

0 голосов

1 ответ

Извлечение нескольких столбцов из столбца в PySpark DataFrame с использованием именованного регулярного выражения

Предположим, у меня есть DataFrame df в pySpark следующей формы: | id | type | description | | 1 |...

konewka / 02 ноября 2018

0 голосов

0 ответов

Ошибка при упаковке и развертывании приложения pyspark в кластере с помощью spark-submit

dks551 / 02 ноября 2018

0 голосов

1 ответ

СПАРК 2.2.2 - Объединение нескольких СДР, выдающих из памяти кроме себя. Результирующий RDD имеет 124 столбца. Каким должен быть оптимальный метод соединения?

У меня есть файл, который имеет несколько значений для каждого номера телефона. например: phone_no...

Rishabh Dixit / 02 ноября 2018

0 голосов

0 ответов

jav-файл jar, выполняющийся из приложения pyspark / spark

У меня есть приложение java jar, которое читает файлы PDF, извлекает содержимое и сохраняет его в...

Rana Khan / 02 ноября 2018

0 голосов

0 ответов

Обрезка разделов на основе других столбцов

Рассмотрим таблицу орков в улье с разделом в столбце dt_month, в котором содержатся все строки дней...

Subramaniam Ramasubramanian / 02 ноября 2018

0 голосов

1 ответ

Python эквивалентно Spark rangeBetween для окна?

Я пытаюсь выяснить, есть ли в python способ сделать эквивалент rangeBetween в скользящем агрегации....

jswtraveler / 02 ноября 2018

0 голосов

1 ответ

Pyspark загружает CSV файл ошибок и удаляет файл

Я выполняю задание PySpark , которое считывает данные из файла, если он существует, а если нет,...

Andrew Rowlands / 02 ноября 2018

0 голосов

0 ответов

Как обучить автокодер нейронной сети (Keras) на кадре данных Spark

Я создал очень большой Spark Dataframe с PySpark на моем кластере, который слишком велик, чтобы...

BobBetter / 02 ноября 2018

0 голосов

2 ответов

Pyspark: сравнить значения и, если верно, выполнить оператор

Я пытаюсь заставить этот цикл работать, где я сравниваю значение ок. Я хотел бы выполнить оператор...

LN_P / 02 ноября 2018

0 голосов

5 ответов

Условное объединение на разных столбцах

Какой самый эффективный способ написать это в pyspark: Псевдокод: table1 inner join table2 on...

bry888 / 02 ноября 2018

0 голосов

0 ответов

Вставить перезапись в разделенную таблицу куста (указывающую на s3) из pyspark слишком медленно

У меня есть искровое задание, которое вставляет данные в секционированную таблицу улья, используя...

barath / 02 ноября 2018