Вопросы с тегом pyspark

0 голосов

0 ответов

Используйте AvroBigQueryInputFormat для чтения из BigQuery в Pyspark

Я использовал этот урок , чтобы получить данные из Bigquery в pyspark: table_data = sc

Georges Kohnen / 28 августа 2018

0 голосов

2 ответов

Проверьте пустой столбец в Python

У меня есть spark dataframe, который содержит 4 столбца: (col_1, col_2, col_3, col_4) ==>...

icou / 28 августа 2018

0 голосов

0 ответов

Как сделать результаты keras (dist-keras) воспроизводимыми (python)?

Как сделать результаты воспроизводимыми? Я использую модель LSTM для обучения данных временных...

Pooja P / 28 августа 2018

0 голосов

0 ответов

Остановка сеанса зажигания не закрывает подключения к MySQL метастор

Я использую Spark 2.3.1 и Connector / J 5.1.47 . Я написал простую программу для проверки...

Dror B. / 28 августа 2018

0 голосов

3 ответов

pyspark: collect_list () как сохранить список оставшихся элементов группы в строке

Мой набор данных сгруппирован по двум переменным: 'customer' и 'sku' с использованием функции...

Charles Van Damme / 28 августа 2018

0 голосов

0 ответов

Ошибка выполнения Pyspark

Это мой код: from pyspark import SparkContext,SparkConf sc=SparkContext("local"...

Yatindra / 28 августа 2018

0 голосов

1 ответ

как использовать значения последовательных строк сгруппированных данных для определения значения текущей строки с помощью pyspark

Из набора данных ниже я хочу изменить значение столбца won_offer на 1 или 0. Проблема в том, что...

Charles Van Damme / 28 августа 2018

0 голосов

0 ответов

Проблема преобразования типа PySpark из String в Int

Я хочу использовать алгоритм ml с pyspark. Постановка задачи: использовать алгоритм ml с pyspark...

염기웅 / 28 августа 2018

0 голосов

1 ответ

Фильтр Pyspark Dataframe с udf на всю строку

Есть ли способ выбрать всю строку в виде столбца для ввода в фильтр Pyspark udf? У меня есть...

user2399973 / 28 августа 2018

0 голосов

1 ответ

Можно ли выполнять операции удаления и обновления непосредственно над таблицами внешних баз данных, как в ORACLE, с помощью Spark

Мне нужно знать, возможно ли удалить строки таблицы в Oracle Database с помощью Spark. Как, я хочу...

user9207408 / 28 августа 2018

0 голосов

0 ответов

ошибка пиарроу: toPandas предпринял попытку оптимизации стрелки

когда я устанавливаю pyarrow в true, мы используем сеанс spark, но когда я запускаю toPandas (), он...

sweetyBaby / 28 августа 2018

0 голосов

1 ответ

Как преобразовать даты в формате «ДД / ММ / ГГГГ» в фрейме данных pyspark?

У меня есть датафрейм: |2018/12/04| mop-MD00094(Kg.)| 2500.0| 147.0| 367500.0| |2018/12/04|...

eduliant / 28 августа 2018

0 голосов

1 ответ

PySpark не удается импортировать collect_list, функции нет collect_list ПОЧЕМУ?

Я хочу использовать collect_list в: from pyspark.sql.functions import collect_list Но пакет функций...

Gene Guo / 28 августа 2018

0 голосов

1 ответ

Получить нулевую дату при чтении фрейма данных в pyspark?

У меня есть CSV-файл с данными в формате ниже 02/04/2018,MZE-RM00007(Kg.),29530,14.5,428185...

eduliant / 28 августа 2018

0 голосов

1 ответ

Pyspark (Dataframes) считывает файл по строке (конвертировать строку в строку)

Мне нужно прочитать строку файла, разделить каждую строку на слова и выполнить операции со словами....

adev / 28 августа 2018

0 голосов

0 ответов

Стоит ли перераспределять по столбцам для луж данных и групповых агрегаций?

У меня есть ситуация, когда я начинаю с озера данных (1 ТБ), и у меня достаточно эвристики для...

Renée / 28 августа 2018

0 голосов

2 ответов

Использование значения столбца при приведении другого столбца в кадре данных искры

У меня есть такой фрейм данных: rdd1 = sc.parallelize([(100,2,1234.5678),(101,3,1234.5678)]) df =...

vishnu ram / 28 августа 2018

0 голосов

0 ответов

Сохранение разреженных векторов PySpark / Spark ML в libsvm или разреженном формате

Я использовал Spark ML для преобразований в моем большом наборе данных и хотел бы экспортировать...

user3542930 / 27 августа 2018

0 голосов

0 ответов

Каков оптимальный способ синтаксического анализа следующего сообщения Кафки JSON в фрейм данных pyspark?

Я использую структурированную потоковую передачу в формате spark для чтения темы kafka и хочу...

Nikul Patel / 27 августа 2018

0 голосов

2 ответов

Как мне подключить Spark к драйверу JDBC в Zeppelin?

Я пытаюсь получить данные с сервера SQL в таблицу Hive, используя Spark в блокноте Zeppelin. Я...

Collin Cunningham / 27 августа 2018

0 голосов

1 ответ

pyspark updateStateByKey завершается неудачно при вызове моей функции

Я просто пытаюсь запустить пример кода Statefu lstreaming, но он завершается ошибкой. Не могу...

Dipas / 27 августа 2018

0 голосов

1 ответ

Ошибка при присоединении к DataFrame в PySpark 2

У меня проблемы с использованием Spark 2.3.1 и PySpark. Firstable Я пытался выполнить все множество...

Alternative intelligence / 27 августа 2018

0 голосов

0 ответов

записывать журналы из скрипта Python (используя модуль регистрации) в таблицы кустов в Azure Hdinsight

Я довольно новичок в модуле журналирования в среде Python и Azure hdinsight. Меня интересует...

Ashish Menkudale / 27 августа 2018

0 голосов

1 ответ

Объект JavaPackage не вызывается - MLeap

Когда я пытаюсь сериализовать модель, используя MLeap , используя следующий код: import mleap

Tshilidzi Mudau / 27 августа 2018

0 голосов

0 ответов

PySpark: генерировать случайную распределенную матрицу

Кто-нибудь знает, как мы можем генерировать случайную распределенную матрицу (RowMatrix ,...

Oussama Berguiga / 27 августа 2018