Вопросы с тегом pyspark

0 голосов

1 ответ

Использование graphX в pyspark

Есть ли Python API для GraphX?Я сталкивался с Scala API, но я хочу знать, возможно ли использовать...

Abhishek Sai Shukla / 21 мая 2018

0 голосов

1 ответ

Почему почти постоянное время выполнения при увеличении рабочих Spark автономно

Мне говорят, что рекомендуемое количество рабочих для установки - одно на ядро при использовании...

Arnold Taremwa / 21 мая 2018

0 голосов

2 ответов

PySpark SQL: более одной строки, возвращаемой подзапросом, используемым в качестве выражения:

Я пытаюсь создать новый столбец в моем test фрейме данных, используя значения из другого фрейма...

Clock Slave / 21 мая 2018

0 голосов

1 ответ

пересечение и объединение двух фреймов данных pyspark на основе общего столбца

У меня есть два фрейма данных pyspark, A & B A имеет два столбца date, symbol B имеет два столбца...

ggupta / 21 мая 2018

0 голосов

1 ответ

Как создать фрейм данных для потоковой передачи кафки с помощью PySpark?

Я использую kafka версии 2.11-1.0.1 и Spark версии 2.0.2.Я должен сделать dataframe для ответа...

Rajendra Jangir / 21 мая 2018

0 голосов

1 ответ

Писпарк |Отделить значения строки / int от фрейма данных

У меня есть Spark Dataframe, как показано ниже: +---------+ |col_str_1| +---------+ | 1| | 2| | 3|...

Vikram Taori / 21 мая 2018

0 голосов

2 ответов

Сохранение PySpark в таблицу Redshift с режимом «Overwirte» приводит к удалению таблицы?

Использование PySpark в AWS Glue для загрузки данных из файлов S3 в таблицу Redshift, в режиме...

Echo Li / 21 мая 2018

0 голосов

1 ответ

Apache Spark: не могу использовать Matplotlib на ноутбуке Jupyter

Я хотел сделать простую вещь. На моем искровом кластере я преобразовал свой массив данных Spark в...

david nadal / 21 мая 2018

0 голосов

1 ответ

Преобразование значения ключа rdd в просто rdd со списком значений

Как я могу преобразовать значение ключа rdd в rdd с помощью только списка значений в PySpark?...

Rvsvgs / 20 мая 2018

0 голосов

1 ответ

AggregateByKey в Pyspark не дает ожидаемый результат

У меня есть СДР, в котором в качестве значения указаны 2 пары пар ключей и значений: rdd5.glom()

pandi / 20 мая 2018

0 голосов

2 ответов

UnboundLocalError при вызове метода nragms в библиотеке шаблонов Python

Я новичок в Python и Pyspark.Я работаю с кодом, который работает на pyspark, который строит модель...

userofstackoverflow / 20 мая 2018

0 голосов

1 ответ

Кодировать столбец с целым числом в pyspark

Мне нужно закодировать столбец в большой DataFrame в pyspark (spark 2.0).Все значения практически...

Dmitriy Kolomiets / 20 мая 2018

0 голосов

0 ответов

Размер файла меняется после записи через карту, уменьшите работу

Я написал tar-файл на HDFS через pyspark, используя saveAsHadoopFile. когда я делаю hdfs dfs -du -s...

Anmol Virmani / 20 мая 2018

0 голосов

1 ответ

Как преобразовать XML-файлы с несколькими строками тегов в фрейм

У меня есть XML-файл с несколькими строками строк.Мне нужно преобразовать этот XML-файл для...

LUZO / 20 мая 2018

0 голосов

0 ответов

Spark (или pyspark) столбцы содержимого перемешиваются с GroupBy

Я работаю со Spark 2.2.0. У меня есть DataFrame, вмещающий более 20 столбцов.В приведенном ниже...

user63351 / 20 мая 2018

0 голосов

1 ответ

Udf не работает

Можете ли вы помочь мне оптимизировать этот код и заставить его работать?это исходные данные:...

bboy / 20 мая 2018

0 голосов

1 ответ

Пары двух последовательных слов pyspark

Я работаю над моделью языка и хочу посчитать пары чисел двух последовательных слов.Я нашел примеры...

Daniel Chepenko / 20 мая 2018

0 голосов

2 ответов

Читайте XML в искре

я пытаюсь прочитать xml / вложенный xml в pysaprk uing spark-xml jar. df = sqlContext.read \

LUZO / 19 мая 2018

0 голосов

1 ответ

как загрузить тип dict напрямую в rdd

У меня есть диктория в python {'609232972': 4, '975151075': 4,...

Rvsvgs / 19 мая 2018

0 голосов

1 ответ

Не удалось найти исполняемый файл null \ bin \ winutils.exe в двоичном файле hadoop

Недавно я установил купол и свечу в своей системе.Когда я запускал команду pyspark в пути c: \...

krishna teja / 19 мая 2018

0 голосов

1 ответ

Как правильно сгруппироватьByKey для непарных парных дисков, используя pyspark

Я новичок в Python.Я также новичок в pysaprk.Я пытаюсь запустить код, который принимает кортеж,...

user3446905 / 19 мая 2018

0 голосов

1 ответ

Запуск регрессии по нескольким столбцам параллельно

У меня очень широкий массив данных со столбцами меток.Я хочу запустить логистическую регрессию для...

Kertis van Kertis / 19 мая 2018

0 голосов

1 ответ

Pyspark не смог найти подходящий сертификат TLS CA после архивации пакета

Я создал приложение Pyspark из этого pyspark-example-project .В примере проекта dependencies.zip...

Jay / 19 мая 2018

0 голосов

1 ответ

Разбор твитов в формате json для поиска пользователей твитеров

Я читаю канал твитера в формате json, чтобы узнать количество пользователей.Некоторые строки во...

Rvsvgs / 19 мая 2018

0 голосов

0 ответов

Py4JJavaError: произошла ошибка .spark.python.PythonRDD.collectAndServe Задание прервано

rdd_data = sc.parallelize([ list(r)[2:-1] for r in data.itertuples()]) rdd_data.count() при...

Taymour Niazi / 19 мая 2018