Вопросы с тегом pyspark

0 голосов

0 ответов

Искра на EMR не находит мои модули Python, так как EMR 5.11

Я запускаю pyspark в AWS EMR начиная с EMR 5.3 и никогда не сталкивался с этой проблемой до тех пор...

Dudu Lemberberg / 07 июня 2018

0 голосов

2 ответов

Проверка наличия файлов HDFS в Pyspark

Может ли кто-нибудь предложить лучший способ проверить наличие файла в pyspark. В настоящее время я...

Mohammad Umar Farooq / 07 июня 2018

0 голосов

0 ответов

Как я могу проверить схему Json в spark 2.X?

Использование Spark потоковой передачи (записано в Scala ) для чтения сообщений от Kafka.Все...

DigitalFailure / 07 июня 2018

0 голосов

1 ответ

Как застегнуть две колонки в pyspark?

Я использую: Python 3.6 и PySpark 2.3.0.В следующем примере у меня есть только объекты буксировки в...

Sn0pY / 07 июня 2018

0 голосов

1 ответ

Pyspark - Как разделить столбец со значениями структуры типа Datetime?

У меня есть следующий код, который создает окна и агрегирует значения в окнах. df

SecretAgent / 07 июня 2018

0 голосов

1 ответ

Sagemaker PySpark: Kernel Dead

Я следовал инструкциям здесь , чтобы настроить кластер EMR и ноутбук SageMaker.У меня не было...

c3p0 / 07 июня 2018

0 голосов

2 ответов

Pyspark Join, а затем выбор столбца показывает неожиданный вывод

Я не уверен, что долгая работа делает это со мной, но я вижу некоторое неожиданное поведение в...

Bg1850 / 07 июня 2018

0 голосов

2 ответов

Как использовать оконную функцию для подсчёта дней недели в Pyspark 2.1

С помощью приведенного ниже набора данных pyspark (2.1), как использовать оконную функцию, которая...

Micah Pearce / 07 июня 2018

0 голосов

2 ответов

Spark sql - Pyspark строка для преобразования даты

У меня есть столбец с данными 20180501 в строковом формате, я хочу преобразовать его в формат даты,...

Othin Ram / 07 июня 2018

0 голосов

1 ответ

Как распределить пул многопроцессорности среди рабочих Spark

Я пытаюсь использовать многопроцессорную обработку для чтения 100 CSV-файлов параллельно (и...

Paul Bendevis / 06 июня 2018

0 голосов

1 ответ

Применение сентиментального анализа TextBlob в Twitter Stream

В настоящее время я транслирую твиты и хочу применить сентиментальный анализ для каждого твита,...

Cris Pineda / 06 июня 2018

0 голосов

1 ответ

Получение выходного / возвращаемого значения из спарк-отправки

Есть ли в любом случае, что я могу захватить выходные данные заданий spark-submit spark-submit...

Viswanath / 06 июня 2018

0 голосов

1 ответ

Невозможно открыть Pyspark Shell в Linux

Я запускаю ./bin/pyspark at, чтобы открыть оболочку pyspark, но получаю следующую ошибку:

DT_NoHope / 06 июня 2018

0 голосов

0 ответов

Как написать поток на Amazon S3, используя структурированный потоковый Pyspark?

Я не получаю данные в мое ведро s3 и не получаю никакой ошибки.Я работаю с Spark 2.3.0 и Python.По...

Eric Bellet / 06 июня 2018

0 голосов

0 ответов

как получить PID искрового исполнителя в pyspark

предположим, что задание spark, запущенное в режиме кластера, запускает 3 исполнителя в режиме...

Manoranjan / 06 июня 2018

0 голосов

1 ответ

Конвертировать RDD в Dataframe в FPGrowth Pyspark

Я обнаружил ошибку, когда сделал DataFrame из RDD. from pyspark.ml.fpm import FPGrowth sogou = sc

Chen / 06 июня 2018

0 голосов

2 ответов

Spark Streaming объединяется с данными GreenPlum / Postgres.Подход

Что у меня есть? У меня есть приложение Spark Streaming (на Kafka Streams) в кластере Hadoop,...

Marcel Mars / 06 июня 2018

0 голосов

1 ответ

Получить различное количество идентификаторов за несколько дней (на определенную дату и предыдущие 2 дня)

В моей таблице 4 столбца: rii, uii, rdi и udi.Как показано ниже:...

ggupta / 06 июня 2018

0 голосов

1 ответ

DROP TABLE в Hive (через Spark) висит

Моя попытка отбросить таблицу HIVE зависает и, в конце концов, завершается, за исключением...

Gosia / 06 июня 2018

0 голосов

3 ответов

разделение строки на несколько строк pyspark

У меня есть фрейм данных, похожий на: df = spark.createDataFrame([(0,...

user2805885 / 06 июня 2018

0 голосов

1 ответ

Потоковая передача Spark в Power BI

Как следует из названия, я хочу видеть данные в реальном времени в Power BI.Я построил конвейер до...

Gagan / 06 июня 2018

0 голосов

2 ответов

Как на самом деле применить сохраненную модель RF и прогнозировать в Spark2?

Это вопрос новичка, потому что я не могу найти простой способ. Я делаю набор данных авиакомпании с...

HP. / 06 июня 2018

0 голосов

1 ответ

Сводные значения к существующим столбцам в фрейме данных PySpark

У меня есть фрейм данных, как показано ниже в pyspark. +---+-------------+----+ | id| device| val|...

User12345 / 05 июня 2018

0 голосов

2 ответов

Spark разбить и разобрать JSON в столбце

У меня есть фрейм данных PySpark: catalogid | 1123798 catalogpath |...

Jackson / 05 июня 2018

0 голосов

0 ответов

PySpark с NumPy: нестабильность производительности

Я хотел бы измерить производительность PySpark при моделировании Pi на моем локальном рабочем столе...

parisjohn / 05 июня 2018