Вопросы с тегом pyspark

1 голос

0 ответов

Распределено для цикла в фрейме данных pyspark

Контекст: моя компания в Spark 2.2, поэтому невозможно использовать pandas_udf для распределенной...

Kenny / 23 марта 2019

0 голосов

0 ответов

разные модели pySpark MLLib дают одинаковую точность

Цель состоит в том, чтобы получить точность для каждой модели, чтобы показать, что точность...

David F / 23 марта 2019

0 голосов

1 ответ

Сортировать или заказать в pyspark, показывая странный вывод

Я пытаюсь отсортировать значение в моем фрейме данных pyspark, но он показывает странный вывод

Talha Anwar / 23 марта 2019

0 голосов

0 ответов

добавить дополнительную строку по возрастанию индекса для каждой строки строки

ratings_test = test_data.map(lambda l: l.split()).map(lambda a : Row(userId=int(a[0])...

vamsy vaddi / 23 марта 2019

1 голос

2 ответов

Pyspark создать словарь в группе

Возможно ли в pyspark создать словарь в пределах groupBy.agg()?Вот игрушечный пример: import...

neobot / 23 марта 2019

0 голосов

1 ответ

Лямбда-функция AWS python / pysparkl

У меня есть лямбда-функция, которая срабатывает, когда объект попадает в определенную папку в...

user8545255 / 23 марта 2019

2 голосов

2 ответов

H2O Target Mean Encoder "кадры отправляются в том же порядке" ОШИБКА

Я следую примеру H2O, чтобы выполнить целевое среднее кодирование в Sparking Water (Sparking Water...

Gavin / 22 марта 2019

0 голосов

0 ответов

Преобразуйте LongType () в DateType () в pyspark, а также добавьте дату

Предположим, у меня есть фрейм данных df со столбцом birth_date, который имеет значения ('123',...

Gompu / 22 марта 2019

0 голосов

1 ответ

Не могу запустить Spark-shell

Здравствуйте, я распаковал и экспортировал искровой путь.Когда я обедаю, я получаю эту ошибку....

dataflowus / 22 марта 2019

1 голос

0 ответов

Как прочитать CSV-файл, для которого данные содержат двойные кавычки и разделенные запятыми, используя спрей данных в кадрах данных

Я пытаюсь прочитать CSV-файл, используя спарк-фрейм данных в кирпичах данных. CSV-файл содержит...

pythonUser / 22 марта 2019

0 голосов

1 ответ

Рассчитываются ли .withColumn и .agg параллельно в pyspark?

Рассмотрим, например, df.withColumn("customr_num", col("customr_num")

Kenny / 22 марта 2019

0 голосов

0 ответов

Spark: не удалось прочитать файл из HDFS

У меня есть файл, хранящийся в HDFS, и я могу увидеть его, используя hdfs dfs -ls /user. Я также...

brest1007 / 22 марта 2019

0 голосов

2 ответов

регулярное выражение: удалить нули в середине строки (но оставить их в конце) pyspark

Мне нужно удалить нули, которые находятся в середине строки, сохраняя при этом нули в конце (в...

LN_P / 22 марта 2019

0 голосов

0 ответов

Pyspark создаст колонку средней недели за год назад

Моя цель - получить столбец, который является «ценностью ссылки» для отдельной пары (продукт /...

user9176398 / 22 марта 2019

1 голос

1 ответ

Объединяет в писпарк разные колонки

как мне присоединиться к фрейму данных pyspark в двух разных столбцах? Cols df1: ID,DATE cols df2:...

feedme / 22 марта 2019

0 голосов

1 ответ

Как сохранить потоковую искру на локальном ПК и HDF?

пытался получить эти данные в потоковом режиме и не смог сохранить эти данные в виде кортежей на...

艾瑪艾瑪艾瑪 / 22 марта 2019

8 голосов

3 ответов

Ошибка Pyspark: процесс шлюза Java завершился перед отправкой номера порта

Я использую Pyspark для запуска некоторых команд в Jupyter Notebook, но выдает ошибку.Я пробовал...

Avi / 22 марта 2019

0 голосов

1 ответ

Новое в Pyspark - импорт CSV и создание файла паркета со столбцами массива

Я новичок в Pyspark, и я дергал себя за волосы, пытаясь достичь чего-то, что я считаю довольно...

MGK / 22 марта 2019

0 голосов

0 ответов

Как использовать скалярный pandas_udf в pyspark для столбцов типа массива

Я пытаюсь реализовать скалярный pandas_udf в spark, но получаю ошибки при выполнении определенной...

Sandie / 22 марта 2019

0 голосов

1 ответ

Как метод RDD take () работает внутри?

Я понимаю, что take (n) вернет n элементов СДР, но как Spark решает, из какого раздела вызывать эти...

J. P / 21 марта 2019

0 голосов

2 ответов

Как получить строки, разделенные запятыми, из списка в запросе в PySpark?

Я хочу сгенерировать запрос, используя список в PySpark list = ["hi@gmail.com",...

Jose Rolando Josue / 21 марта 2019

1 голос

1 ответ

Имеет ли значение WARN Client: файл ресурса с одинаковым путем: ///tmp/programs95923.zip, добавленный несколько раз в распределенный кеш?

У нас есть большое приложение Apache Spark, работающее в Amazon EMR. Я пытаюсь избавиться от всех...

vy32 / 21 марта 2019

0 голосов

0 ответов

PySpark: конвертировать RDD в список

У меня возникли проблемы с преобразованием СДР в список, и я мог бы использовать некоторую помощь,...

MitterHai / 21 марта 2019

1 голос

0 ответов

pyspark MQTT структурированный стриминг с Apache Bahir

Я использую spark 2.4 и запускаю pyspark следующим образом: ./bin/pyspark --packages org.apache

Shin / 21 марта 2019

0 голосов

0 ответов

Pyspark: сброс соединения с помощью toLocalIterator

Я пытаюсь локально выполнить итерацию по данным rdd, используя цикл, подобный for row in rdd

Ligohu / 21 марта 2019