Вопросы с тегом pyspark

0 голосов

1 ответ

Конкатат нескольких столбцов данных с использованием pyspark

Предположим, у меня есть список столбцов, например: col_list = ['col1','col2']...

Amita Rawat / 28 февраля 2019

0 голосов

2 ответов

Pyspark создает несколько строк для записи, которые включают временной диапазон

У меня датафрейм выглядит следующим образом. A Start End 1 1578 1581 1 1789 1790 2 1800 1802 начало...

Eleanor / 28 февраля 2019

0 голосов

1 ответ

ValueError: Ошибка при проверке цели: ожидается, что плотность_2 будет иметь форму (1,), но получен массив с формой (14,)

Я пытаюсь обучить модель классификации распределенным способом.Я использую библиотеку...

Vamsi Nimmala / 28 февраля 2019

0 голосов

0 ответов

Pyspark: использование sequence.nextval при сохранении фрейма данных в Netezza

Мое требование несколько похоже на этот вопрос как использовать nextval () в драйвере jdbc postgres...

Prabakaran Vnc / 28 февраля 2019

0 голосов

1 ответ

разбить столбец строки на знак плюс (+) в искре и обрезать результат

Я хочу создать столбец на основе значения существующего столбца.Везде, где есть знак плюс, мы хотим...

Koushik Chandra / 28 февраля 2019

0 голосов

1 ответ

OneHotEncoding с использованием keras.utils.to_categorical не может преобразоваться в массив Numpy размера полной длины

Я работаю в распределенной среде, чтобы отследить модель машинного обучения keras, поэтому мне...

Vamsi Nimmala / 28 февраля 2019

0 голосов

0 ответов

Разбор вложенного файла JSON во фрейм табличных данных (1 строка на эпизод) с использованием PySpark?

Данные можно найти здесь, это относительно небольшой файл json, который я нашел на github.Я пытаюсь...

MrL / 27 февраля 2019

0 голосов

0 ответов

GraphFrames подключенных компонентов - Компонент Ноль

Когда я запускаю алгоритм подключенных компонентов в GraphFrames, появляется огромный компонент с...

Ron F / 27 февраля 2019

0 голосов

0 ответов

Избегайте "spark.driver.maxResultSize" при преобразовании RDD в DataFrame

Я новичок в мире искр :-).Попытка написать рабочий процесс слияния объединяет маленькие журналы в...

Whispererli / 27 февраля 2019

0 голосов

1 ответ

Почему Spark отправляет все задания двум исполнителям?

Вот картина ситуации: Мой код: rdd = spark.read.format("avro").load(paths).rdd

user1302130 / 27 февраля 2019

0 голосов

1 ответ

Spark Sql для чтения из секционированной таблицы Hive orc, выдающей массив из связанной исключительной ситуации

Я создал таблицу ORC в Hive с разделами. Данные загружаются в HDFS с использованием Apache pig в...

Amrutha K / 27 февраля 2019

0 голосов

1 ответ

Ошибка при преобразовании из фрейма данных spark с датами в фрейм данных pandas

У меня есть искровой фрейм данных с этой схемой: root |-- product_id: integer (nullable = true) |--...

Unaipg / 27 февраля 2019

0 голосов

0 ответов

Не могу преобразовать pyspark sql результат запроса в pandas

Я запускаю pyspark в кластере EMR, но получаю сообщение об ошибке при преобразовании SQL-запроса...

funkyFunk / 27 февраля 2019

0 голосов

0 ответов

Конфигурация расположения файла главного узла PySpark

Это мои свойства конфигурации искры.Мой главный узел находится в операционной системе Linux. spark...

Taimur Islam / 27 февраля 2019

0 голосов

1 ответ

Как проверить, если RDD пуст с помощью потоковой передачи искры?

У меня следующий код pyspark, который я использую для чтения файлов журнала из журнала / каталога,...

user1457821 / 27 февраля 2019

0 голосов

0 ответов

обработка пустых партий из входящего потока кинезиса в искровой структурированный поток

мы читаем данные из кинезиса и выводим их в файл, используя поток структуры искры.Реализация...

Vish / 27 февраля 2019

0 голосов

1 ответ

эффективный способ накопить сумму на нескольких столбцах в Pyspark

У меня таблица выглядит следующим образом: +----+------+-----+-------+ |time|val1 |val2 | class|...

lserlohn / 27 февраля 2019

0 голосов

0 ответов

Второе левое внешнее объединение не возвращает правильное количество строк с помощью Spark

В настоящее время я работаю с 3 фреймами данных и объединяю их вместе, начиная с фрейма network и...

sectechguy / 27 февраля 2019

0 голосов

1 ответ

Проверьте все элементы массива, присутствующие в другом массиве pyspark

У меня есть фрейм данных искры df1 id transactions 1 [1, 2, 3, 5] 2 [1, 2, 3, 6] 3 [1, 2, 9, 8] 4...

priya / 27 февраля 2019

0 голосов

0 ответов

Как рассчитать скользящее среднее за 6 месяцев из ежедневных данных с помощью pyspark

Я пытаюсь вычислить скользящее среднее значение цены за последние шесть месяцев в pyspark. В...

gr.kr / 26 февраля 2019

0 голосов

1 ответ

Spark ML: Как DecisionTreeClassificatonModel узнает о весах деревьев?

Я бы хотел получить вес для узлов дерева из сохраненного (или несохраненного)...

Jeff Saremi / 26 февраля 2019

0 голосов

1 ответ

spark read.csv неправильно анализирует временные метки

У меня есть файл csv presence.csv в моем файле данных: TIME,RESULT,PARENTLOCALIZATIONCODE...

Steven / 26 февраля 2019

0 голосов

1 ответ

Проблема вставки данных в таблицу кустов с использованием искры

В настоящее время я работаю над Spark версии 2.1.0, в рамках моей работы по сбору данных я должен...

Ajay Kharade / 26 февраля 2019

0 голосов

0 ответов

Фильтрация по окну на фрейме pyspark

Я хочу взять все предыдущие строки в наборе данных, которые соответствуют определенным критериям...

Francisco Ferreira / 26 февраля 2019

0 голосов

1 ответ

Неэффективно ли использовать UDF для вычисления расстояния между двумя векторами?

Я реализовал алгоритм классификации в Spark, который включает в себя расчет расстояний между...

oulenz / 26 февраля 2019