Вопросы с тегом pyspark

0 голосов

0 ответов

Загрузка avro файлов в фреймы данных pyspark из hdfs

Я построил небольшой конвейер данных, который перемещает некоторые вымышленные тестовые данные из...

MayaK / 03 сентября 2018

0 голосов

1 ответ

Файл Apache Spark для чтения CSV - ClassNotFoundException

Я написал программу spark, которая читает файл CSV и записывает результат в консоль. Я получаю...

Gowdhaman008 / 03 сентября 2018

0 голосов

1 ответ

Соединение 3 таблиц с использованием 2 внутренних соединений в искре с использованием улья

Я хочу объединить три таблицы в Spark, используя только внутренние объединения. Я считаю, что могу...

shubham / 03 сентября 2018

0 голосов

0 ответов

Как записать прогнозы из модели PySpark обратно в таблицу Hive / Impala?

У меня есть рабочий процесс, в котором я извлекаю данные обучения (строки 1-10M) из таблицы улья и...

DataTx / 03 сентября 2018

0 голосов

1 ответ

DataPrame Pyspark присоединяется неправильно, когда есть несколько вложенных полей

У меня есть фрейм данных с такой схемой: root |-- docId: string (nullable = true) |-- Country:...

Nitesh Gupta / 03 сентября 2018

0 голосов

2 ответов

Вставьте несколько строк из pyspark в cosmosdb

Я пытаюсь вставить более одной строки в фрейм данных в pyspark. Это мой код: Сначала я импортирую...

Antonio Andrés / 03 сентября 2018

0 голосов

1 ответ

Как рассчитать среднее значение за неделю в pyspark из таблицы?

eduliant / 03 сентября 2018

0 голосов

1 ответ

Удалить последовательные дубликаты в кадре данных pyspark

Имеет такой фрейм данных: ## +---+---+ ## | id|num| ## +---+---+ ## | 2|3.0| ## | 3|6.0| ## | 3|2

Qubix / 03 сентября 2018

0 голосов

0 ответов

Как извлечь псевдоним из фрейма данных pyspark.

Мы знаем, что df.columns предоставляет имена столбцов, df.dtypes предоставляет имена столбцов и их...

icarus / 03 сентября 2018

0 голосов

0 ответов

Присоединение DStream и RDD с контрольными точками

Я боролся за объединение DStream и RDD. Чтобы установить сцену: Искра - 2.3.1 Python - 3.6.3 РДД Я...

DataWookie / 03 сентября 2018

0 голосов

0 ответов

spark-dataframe / mongo - добавить данные

Мне нужно добавить данные в mongodb, используя spark-dataframe. Например, скажем, в портфеле 100...

jbpm / 03 сентября 2018

0 голосов

2 ответов

pyspark / dataframe - создание вложенной структуры

Я использую pyspark с фреймом данных и хотел бы создать вложенную структуру, как показано ниже До:...

jbpm / 03 сентября 2018

0 голосов

1 ответ

PySpark sql сравнивает записи на каждый день и сообщает о различиях

поэтому у меня проблема в том, что у меня есть этот набор данных: и это показывает, что бизнес...

Ehs4n / 02 сентября 2018

0 голосов

1 ответ

Определяемая пользователем функция агрегирования в Spark для реализации процентили

Я пытаюсь написать udaf для вычисления значений percentile. Мне нужно написать пользовательскую...

SparkABC / 02 сентября 2018

0 голосов

1 ответ

Оптимизация заданий Python Spark

Я использую PySpark (2.3) в кластере Dataproc с 3 узла (4 процессора) 8 ГБ памяти каждый. Данные...

user1411837 / 02 сентября 2018

0 голосов

2 ответов

Как отсортировать список целых чисел в Apache Spark?

Недавно я начал использовать Apache Spark для сортировки большого количества данных. В моих...

Bruno / 02 сентября 2018

0 голосов

1 ответ

Pyspark Python фильтр limitByKey по math.max

У меня есть rdd с ключом в качестве даты и значением как. что-то вроде: 2017-07-03 00:00:00...

Ehs4n / 02 сентября 2018

0 голосов

1 ответ

Фильтрация строк в фрейме данных PySpark с использованием нескольких окон

Я пытаюсь отфильтровать фрейм данных Pyspark на основе списка кортежей временных отметок [(start1,...

quantum / 02 сентября 2018

0 голосов

2 ответов

искровый анализ массива элементов и сравнение соответствующего поля

У меня есть фрейм данных, как показано ниже, столбец uinfo - это массив, и я хочу иметь условие...

user3607698 / 02 сентября 2018

0 голосов

0 ответов

Ошибка памяти в PySpark во время вычислений Filter & GroupBy

Это ошибка: Задание прервано из-за сбоя этапа: задание 12 на этапе 37.0 завершилось неудачно 4 раза...

Sanjiv Rai / 02 сентября 2018

0 голосов

2 ответов

Spark скопировать верхние N выбранных строк в новый фрейм данных

У меня есть некоторый фрейм данных, который имеет миллионы строк. Мне нужно выбрать все строки из...

user3607698 / 02 сентября 2018

0 голосов

0 ответов

Рассчитать стоимость модели гауссовой смеси в Pyspark

Я хочу сравнить кластеризацию с KMeans, Bisecting KMeans и гауссовой моделью смеси (GMM) в Pyspark....

Fisseha Berhane / 02 сентября 2018

0 голосов

3 ответов

Я хочу вычислить процент от общего количества и сохранить его в новом столбце строки данных PYspark:

Данные должны выглядеть так: product total_spend needed a 10 10% a 20 20% a 30 30% b 30 30% b 10...

Sandy / 01 сентября 2018

0 голосов

1 ответ

pyspark выбирает определенные строки, которые имеют больше совпадающих полей столбцов

У меня есть пример таблицы, как показано ниже (у меня есть 1 миллион таких строк), из этого мне...

user3607698 / 01 сентября 2018

0 голосов

2 ответов

zeppelin pyspark, как подключить дистанционную свечу?

Мой дирижабль теперь использует локальную искру. Получил ValueError: Cannot run multiple...

Mithril / 01 сентября 2018