Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

1 голос
0 ответов

Контекст: моя компания в Spark 2.2, поэтому невозможно использовать pandas_udf для распределенной...

Kenny / 23 марта 2019
0 голосов
0 ответов

Цель состоит в том, чтобы получить точность для каждой модели, чтобы показать, что точность...

David F / 23 марта 2019
0 голосов
1 ответ

Я пытаюсь отсортировать значение в моем фрейме данных pyspark, но он показывает странный вывод

Talha Anwar / 23 марта 2019
0 голосов
0 ответов
1 голос
2 ответов

Возможно ли в pyspark создать словарь в пределах groupBy.agg()?Вот игрушечный пример: import...

neobot / 23 марта 2019
0 голосов
1 ответ

У меня есть лямбда-функция, которая срабатывает, когда объект попадает в определенную папку в...

user8545255 / 23 марта 2019
2 голосов
2 ответов

Я следую примеру H2O, чтобы выполнить целевое среднее кодирование в Sparking Water (Sparking Water...

Gavin / 22 марта 2019
0 голосов
0 ответов

Предположим, у меня есть фрейм данных df со столбцом birth_date, который имеет значения ('123',...

Gompu / 22 марта 2019
0 голосов
1 ответ

Здравствуйте, я распаковал и экспортировал искровой путь.Когда я обедаю, я получаю эту ошибку....

dataflowus / 22 марта 2019
1 голос
0 ответов
0 голосов
1 ответ

Рассмотрим, например, df.withColumn("customr_num", col("customr_num")

Kenny / 22 марта 2019
0 голосов
0 ответов

У меня есть файл, хранящийся в HDFS, и я могу увидеть его, используя hdfs dfs -ls /user. Я также...

brest1007 / 22 марта 2019
0 голосов
2 ответов

Мне нужно удалить нули, которые находятся в середине строки, сохраняя при этом нули в конце (в...

LN_P / 22 марта 2019
0 голосов
0 ответов

Моя цель - получить столбец, который является «ценностью ссылки» для отдельной пары (продукт /...

user9176398 / 22 марта 2019
1 голос
1 ответ

как мне присоединиться к фрейму данных pyspark в двух разных столбцах? Cols df1: ID,DATE cols df2:...

feedme / 22 марта 2019
0 голосов
1 ответ

пытался получить эти данные в потоковом режиме и не смог сохранить эти данные в виде кортежей на...

艾瑪艾瑪艾瑪 / 22 марта 2019
8 голосов
3 ответов

Я использую Pyspark для запуска некоторых команд в Jupyter Notebook, но выдает ошибку.Я пробовал...

Avi / 22 марта 2019
0 голосов
1 ответ

Я новичок в Pyspark, и я дергал себя за волосы, пытаясь достичь чего-то, что я считаю довольно...

MGK / 22 марта 2019
0 голосов
0 ответов

Я пытаюсь реализовать скалярный pandas_udf в spark, но получаю ошибки при выполнении определенной...

Sandie / 22 марта 2019
0 голосов
1 ответ

Я понимаю, что take (n) вернет n элементов СДР, но как Spark решает, из какого раздела вызывать эти...

J. P / 21 марта 2019
0 голосов
2 ответов

Я хочу сгенерировать запрос, используя список в PySpark list = ["hi@gmail.com",...

Jose Rolando Josue / 21 марта 2019
1 голос
1 ответ

У нас есть большое приложение Apache Spark, работающее в Amazon EMR. Я пытаюсь избавиться от всех...

vy32 / 21 марта 2019
0 голосов
0 ответов

У меня возникли проблемы с преобразованием СДР в список, и я мог бы использовать некоторую помощь,...

MitterHai / 21 марта 2019
1 голос
0 ответов

Я использую spark 2.4 и запускаю pyspark следующим образом: ./bin/pyspark --packages org.apache

Shin / 21 марта 2019
0 голосов
0 ответов

Я пытаюсь локально выполнить итерацию по данным rdd, используя цикл, подобный for row in rdd

Ligohu / 21 марта 2019
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...