Вопросы с тегом pyspark

0 голосов

1 ответ

pyspark получил Py4JNetworkError («Ответ со стороны Java пуст») при выходе из python

Справочная информация: Режим автономного кластера искры на k8s Искра 2.2.1 hadoop 2.7.6 Выполнить...

Jayce Li / 23 ноября 2018

0 голосов

3 ответов

AWS склеить и обновить дублирующие данные

Я использую AWS Glue для перемещения нескольких файлов в экземпляр RDS из S3.Каждый день я получаю...

joshuahornby10 / 22 ноября 2018

0 голосов

1 ответ

Создать новый столбец с фильтром

Я хочу создать новый столбец, содержащий количество данных в зависимости от фильтра. Вот пример:...

zineb .el / 22 ноября 2018

0 голосов

1 ответ

Spark RDD Windowing с использованием pyspark

Существует Spark RDD, называемый rdd1.У него есть пара (key, value), и у меня есть список,...

user9465775 / 22 ноября 2018

0 голосов

0 ответов

PySpark: разбиение и хеширование нескольких фреймов данных, затем соединение

Справочная информация: Я работаю с клиническими данными с большим количеством различных .csv/.txt...

cph_sto / 22 ноября 2018

0 голосов

0 ответов

Pyspark DataFrame объединение двух DataFrame

У меня есть два кадра данных, скажем, df1 и df2: df1 имеет поля как CI_NAME, CLOSE_TIME, CH_ID и...

Neeraj Kumar / 22 ноября 2018

0 голосов

1 ответ

Каков принцип метода Spark с заменой?

Я изучаю Spark, и у меня есть вопрос о методе sample (). Как вы, возможно, знаете, sample ()...

박민식 / 22 ноября 2018

0 голосов

3 ответов

Pyspark: как преобразовать искровой фрейм данных в json и сохранить его как файл json?

Я пытаюсь преобразовать мой pyspark sql dataframe в json, а затем сохранить в виде файла. df_final...

Shankar Panda / 22 ноября 2018

0 голосов

0 ответов

PySpark применяет один и тот же StringIndexer к нескольким столбцам

У меня есть следующий Dataframe +--------------+---------------+ | SrcAddr| DstAddr|...

Sandro Cavallari / 22 ноября 2018

0 голосов

1 ответ

Pyspark: Как исключить ненулевые записи столбца при вычислении pyspark sql функции?

Я пытаюсь рассчитать статистику для каждого числового поля.Но я застрял здесь, как исключить null...

Shankar Panda / 22 ноября 2018

0 голосов

1 ответ

Как найти соотношение нескольких столбцов в пандах?

У меня есть такие столбцы, как total_balance, b1_amt, b2_amt, b3_amt, b4_amt, b5_amt , и всего их...

subash poudel / 22 ноября 2018

0 голосов

2 ответов

PySpark Dataframe создает новый столбец на основе возвращаемого значения функции

У меня есть фрейм данных, и я хочу добавить новый столбец на основе значения, возвращаемого...

Ali / 22 ноября 2018

0 голосов

0 ответов

Различное поведение метода кэширования для фреймов данных PySpark в Spark 2.3

После обновления Spark с 2.1 до 2.3 у меня возникли проблемы с кэшированными фреймами данных...

max04 / 21 ноября 2018

0 голосов

0 ответов

Обработка данных Pyspark в векторизованном формате

У меня есть набор данных строки 900M, в котором я хотел бы применить некоторые алгоритмы машинного...

flyingmeatball / 21 ноября 2018

0 голосов

1 ответ

Pyspark RDD ошибка «список индексов вне диапазона»

У меня есть RDD в этой форме: [[['a'],['b,c,d','e,f,g']]...

Grevioos / 21 ноября 2018

0 голосов

1 ответ

Pyspark: как передать аргумент в сценарии sql при выполнении в контексте улья

Я отправляю имя столбца в цикле for и хочу использовать эту переменную (которая содержит имя...

Shankar Panda / 21 ноября 2018

0 голосов

0 ответов

Ранняя остановка с помощью mmlspark LightGBMClassifier

Я успешно смог обучить модель xgboost, используя раннюю остановку против "eval_set" в Python.Я...

GivenX / 21 ноября 2018

0 голосов

0 ответов

PySpark и Cassandra: предикатное нажатие, байты ввода / вывода высоки в искре

У нас есть кластер Cassandra, и я пишу код pyspark для извлечения данных из Cassandra в кластер...

Ashwani Singh / 21 ноября 2018

0 голосов

1 ответ

Каким образом одновременно работают reduByKey и mapValues?

Я совершенно новичок в мире больших данных.У меня есть код, который на самом деле создает функцию,...

Sahil Nagpal / 21 ноября 2018

0 голосов

2 ответов

модуль не найден: com.databricks # spark-csv_2.10; 1.5.0

Я попробовал следующее в Jupyter, чтобы прочитать файл CSV в табличном формате. pyspark --packages...

mos / 21 ноября 2018

0 голосов

1 ответ

Pysaprk: IOError: [Errno 2] Нет такого файла или каталога

Мой код PySpark работает непосредственно в кластере hadoop.Но когда я открываю этот файл, он выдает...

Shankar Panda / 21 ноября 2018

0 голосов

3 ответов

Выберите столбцы, которые содержат строку в pyspark

У меня есть pyspark dataframe с большим количеством столбцов, и я хочу выбрать те, которые содержат...

Manrique / 21 ноября 2018

0 голосов

0 ответов

unix_timestamp pyspark.sql.functions получает значение null только для большинства значений

Я пытаюсь преобразовать столбцы из строки в метку времени с помощью этого кода from pyspark.sql...

SpecialOneDz / 21 ноября 2018

0 голосов

1 ответ

Проверить файл CSV PySpark

Я пытаюсь проверить файл CSV (количество столбцов на каждую запись).Согласно приведенной ниже...

reader883 / 21 ноября 2018

0 голосов

1 ответ

Общее выделение превышает 95,00% (960 285 889 байт) кучи памяти - ошибка Pyspark

Я написал скрипт на python 2.7, который использует pyspark для преобразования csv в паркет и другие...

Pythonist / 21 ноября 2018