Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

1 голос
1 ответ

У меня есть сценарий спарк, который должен сделать 60 вызовов API для каждой строки. В настоящее...

Megan / 11 декабря 2019
0 голосов
2 ответов

Как правильно включить внешние пакеты (jar-файлы) в оболочку pyspark? Я использую pyspark из...

Michele Piccolini / 11 декабря 2019
0 голосов
0 ответов

Я пытаюсь написать свою первую программу Spark, я пытаюсь объединить два файла CSV, которые...

Amer Khoury / 11 декабря 2019
0 голосов
1 ответ

У меня есть список диапазонов, как показано ниже: У меня есть список значений, как показано ниже:...

Sen / 11 декабря 2019
3 голосов
0 ответов

У меня есть программа pyspark, которая использует несколько кластеров. Как узнать, на какой машине...

Jessica Chambers / 11 декабря 2019
0 голосов
0 ответов

У меня есть папка в облачном хранилище Google с несколькими паркетными файлами. Я установил в своей...

alcor / 11 декабря 2019
0 голосов
1 ответ

Я хочу, чтобы приведенный ниже столбец слился в один список для вычисления n-граммов. Я не уверен,...

JACK / 11 декабря 2019
1 голос
1 ответ

У меня есть фрейм данных с несколькими столбцами: +-----------+-----------+-----------+ | col1|...

Sushant / 11 декабря 2019
0 голосов
1 ответ

Я использую Spark MLlib с Pyspark для своего задания и мне нужно доказать, что это лучше, чем...

Rohan Dsouza / 02 декабря 2019
0 голосов
2 ответов

Мне нужно иметь возможность получить количество различных комбинаций в двух отдельных столбцах. В...

TinaK / 02 декабря 2019
0 голосов
1 ответ

Я работаю с RDD, у которого есть несколько строк, начинающихся с #. Я хочу удалить все эти строки,...

Kalyani Rane / 01 декабря 2019
0 голосов
1 ответ

Мне нужно иметь возможность получить наиболее распространенное значение столбца с помощью Pyspark....

TinaK / 01 декабря 2019
1 голос
2 ответов
0 голосов
0 ответов

Я запускаю приведенный ниже код, и он работает отлично, но это ужин, супер, супер медленный. df

asher / 01 декабря 2019
0 голосов
1 ответ

У меня есть фрейм данных pyspark с 2 столбцами, A и B. Мне нужно, чтобы строки B обрабатывались...

KS1 / 21 ноября 2019
0 голосов
1 ответ

Я пытаюсь запустить несколько клиентов Spark на Airflow (планировщик ETL). Я работаю в кластерном...

RefiPeretz / 21 ноября 2019
2 голосов
3 ответов
0 голосов
1 ответ

У меня есть поток данных искрового потока, как показано ниже. Я хочу преобразовать...

Senthil / 21 ноября 2019
0 голосов
2 ответов

Есть ли способ условно применить фильтр к оконной функции в pyspark? Для каждой группы в col1 я...

Kertis van Kertis / 21 ноября 2019
1 голос
1 ответ

Я работаю над регулярным выражением, чтобы применить его к столбцу PySpark DataFrame. Я не могу...

Amesys / 20 ноября 2019
1 голос
1 ответ

Я пытаюсь применить модель scikit, полученную с помощью рассола, к каждой строке структурированного...

xcsob / 20 ноября 2019
0 голосов
1 ответ

Когда я запускаю приведенный ниже код, у меня возникла ошибка, которая говорит о том, что...

ChandraMouli Poreddy / 12 ноября 2019
0 голосов
1 ответ

Операция pyspark groupby не генерирует уникальные групповые ключи для больших наборов данных Я вижу...

user1264641 / 12 ноября 2019
1 голос
1 ответ

У меня есть столбец массивов в кадре данных, и я хочу знать, находится ли какой-либо из элементов...

Crow59 / 11 ноября 2019
2 голосов
0 ответов

Я пытаюсь понять, как оптимально в Kedro преобразовать информационный фрейм Spark, выходящий из...

Dmitry Deryabin / 11 ноября 2019
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...