Вопросы с тегом pyspark

0 голосов

1 ответ

TypeError: невозможно выбрать объекты генератора при использовании mapPartitions

Я смотрю на разделы СДР >>> rdd = sc.parallelize(range(10), 5) >>> rdd.collect()...

user2314737 / 28 июня 2018

0 голосов

0 ответов

искровой раздел из-за сбоев памяти

У меня есть задание Spark 2.2, написанное в pyspark, которое пытается прочитать 300BT данных...

Costas Piliotis / 27 июня 2018

0 голосов

2 ответов

Pyspark: взорвать JSON в столбце в несколько столбцов

Данные выглядят так - +-----------+-----------+-----------------------------+ | id| point| data|...

sjishan / 27 июня 2018

0 голосов

1 ответ

Как показать файл данных в хорошем формате в блокноте jupyter, используя pyspark с ядром apachee-toree

Будет очень трудно прочитать выходные данные, если они не в правильном формате, как показано на...

Gaurav Tambi / 27 июня 2018

0 голосов

1 ответ

Список фреймов данных в RDD в отдельном разделе

У меня есть список искровых фреймов данных, и я должен выполнить с ними некоторую операцию Я хочу...

Gladiator / 27 июня 2018

0 голосов

1 ответ

Что эквивалентно value_counts () Panda в PySpark?

У меня следующая команда python / pandas: df.groupby('Column_Name').agg(lambda x: x

TSAR / 27 июня 2018

0 голосов

1 ответ

Поезд Случайный Лесной регрессор Модель с Pyspark

Я работаю над проектом анализа настроений, используя данные, извлеченные в формате json,...

jowwel93 / 27 июня 2018

0 голосов

1 ответ

фильтр на отметке времени искры не работает в диапазоне, превышающем день

Я работаю с версией Pyspark 2.3.0. я фильтрую фрейм данных в столбце метки времени. | - requestTs:...

sparkly / 27 июня 2018

0 голосов

2 ответов

Объединение нескольких фреймов данных в одном операторе и выбор только необходимых столбцов

У меня есть следующие Spark DataFrames: df1 с колонками (id, name, age) df2 с колонками (id, salary...

bobby1985 / 27 июня 2018

0 голосов

2 ответов

Spark read.json не учитывает логические значения в python

Я пытался выполнить пример преобразования строки JSON в фрейм данных в искре, следуя официальной...

harshlal028 / 27 июня 2018

0 голосов

1 ответ

лучший способ создания таблиц в кусте из CSV-файлов с использованием pyspark

У меня есть 6 CSV файлы в HDFS. 3 присутствуют в каталоге с именами /user/data/ и 3 в /user/docs/....

Question_bank / 27 июня 2018

0 голосов

1 ответ

добавить префикс к элементам spark rdd

В моем rdd есть два строковых элемента: «53 45 61», «0 1 2». Я хотел бы сжать и отобразить его...

unchained / 27 июня 2018

0 голосов

0 ответов

Как использовать функцию reduKey для получения непарных записей

Я хочу объединить 2 записи на основе ключа, но не хочу пропустить и непарные записи. Например, у...

Anirudha Anikhindi / 26 июня 2018

0 голосов

1 ответ

Отказоустойчивость в Spark vs Dask

Я прочитал следующие в документации Dask в разделе известных ограничений: Это [Dask] не является...

Amelio Vazquez-Reina / 26 июня 2018

0 голосов

1 ответ

Firehose JSON -> S3 Parquet -> ETL Spark, ошибка: невозможно определить схему для Parquet

Кажется, что это должно быть легко, как будто это основной вариант использования этого набора...

Narfanator / 26 июня 2018

0 голосов

0 ответов

Как показать фрейм данных в pyspark в презентабельной форме.

команда df_load.describe () toPandas. (). Транспонировать () Приведенная выше команда дает...

Gaurav Tambi / 26 июня 2018

0 голосов

1 ответ

Как узнать, что нового и что изменилось при сравнении двух фреймов данных в pyspark?

У меня есть два кадра данных (более 1 млн записей). Только ~ 10% строк отличаются. Я знаю, как...

max04 / 26 июня 2018

0 голосов

1 ответ

Объединение PySpark и группировка по

Я видел несколько сообщений, но агрегация выполняется по нескольким столбцам, но я хочу, чтобы...

tarun kumar Sharma / 26 июня 2018

0 голосов

0 ответов

Создайте контекст Spark для каждого запроса в приложении флакона pyspark.

Я новичок в apace spark, как мы можем создать контекст искры для веб-приложений. Ниже, я...

Robert / 26 июня 2018

0 голосов

0 ответов

как конвертировать датафрейм в BlockMatrix в pyspark

Я пытаюсь вычислить матрицу сходства пользователей по их метаданным.После этого вопроса я нашел...

Aziz Ilyosov / 26 июня 2018

0 голосов

1 ответ

Пользовательский журнал Python для базы данных

У меня есть следующий пример кода Python, и когда я пытаюсь выполнить, я получаю сообщение об...

Yuva / 26 июня 2018

0 голосов

2 ответов

Заменить значение столбца на номер другого значения столбца, меньшего, чем он сам

Предположим, у меня есть фрейм данных Pyspark с двумя столбцами: ID, зарплата.Фрейм данных имеет...

Tran Dinh Cuong / 26 июня 2018

0 голосов

1 ответ

PySpark - JSON в RDD / объединение

Основываясь на предложении на этот вопрос, который я задал ранее , я смог преобразовать свой RDD в...

Craig / 26 июня 2018

0 голосов

1 ответ

Как использовать maxOffsetsPerTrigger в структурированной потоковой передаче pyspark?

Я хочу ограничить скорость при извлечении данных из кафки.Мой код выглядит так: df = spark.read

杨嘉辰 / 26 июня 2018

0 голосов

1 ответ

PySpark - от RDD до JSON

У меня есть запрос Hive, который возвращает данные в этом формате: ip, category, score 1.2.3.4, X,...

Craig / 25 июня 2018