Вопросы с тегом pyspark

0 голосов

1 ответ

Как проанализировать данные CSV, которые содержат символы новой строки в поле, используя pyspark

Исходные данные выглядят так, как показано ниже. В одном из полей 4-й записи есть многострочная...

Ramesh / 19 ноября 2018

0 голосов

2 ответов

Не удается создать набор данных для паркета Petastorm через Spark с ошибкой переполнения (больше 4 ГБ)

Я пытаюсь реализовать создание набора данных Uber Petastorm, которое использует Spark для создания...

bluesummers / 19 ноября 2018

0 голосов

0 ответов

искра не используя узлы

Я читаю файл json.gz следующим образом: qa_df =spark.read.json('qa_Clothing_Shoes_and_Jewelry

dharmanath patil / 19 ноября 2018

0 голосов

1 ответ

Как передать файл jar (из Artifactory) в dcos spark run?

Я пытаюсь запустить работу с потоковым воспроизведением на платформе DC / OS, и у меня проблема с...

Lost in ML / 19 ноября 2018

0 голосов

1 ответ

Выровнять столбец структуры Hive или файл avro с помощью pyspark

У меня есть таблица Hive, в которой есть столбец типа данных struct (пример ниже).Таблица создана в...

CP7 / 19 ноября 2018

0 голосов

1 ответ

Чтение данных из Hive через Pyspark

Я пытаюсь прочитать данные из таблицы Hive через Pyspark. Я успешно построил связь между Ульем и...

Mohsin Aslam / 19 ноября 2018

0 голосов

0 ответов

Pyspark: проверьте, находятся ли данные в кадре данных, и добавьте данные

У меня есть два кадра данных, как это: df: +---+-----+--------------+ | id|group| var1|...

laos yu / 19 ноября 2018

0 голосов

1 ответ

Как обновить значение искрового датафрейма в python?

У меня есть искровой фрейм данных df = spark.createDataFrame([('Andy', 'NY'),...

Umi / 19 ноября 2018

0 голосов

1 ответ

Pyspark - печатать сообщения от Kafka

Я установил систему kafka с производителем и потребителем, передавая в виде сообщений строки файла...

albus_c / 18 ноября 2018

0 голосов

0 ответов

Как выполнить правописание для фрейма данных PySpark

|CallID| Customer | Response |...

Ajay / 18 ноября 2018

0 голосов

0 ответов

Запустите кафкастрим с JAR-артефактом в Jupyter

Я работаю над простым скриптом Python для потоковой передачи сообщений от Kafka с использованием...

albus_c / 18 ноября 2018

0 голосов

2 ответов

Докер Hadoop Spark, где pyspark выдает исключение BlockMissingException, но файл в порядке

На основе https://github.com/gotthardsen/docker-hadoop-spark-workbench/tree/master/swarm У меня...

Jens Gotthardsen / 18 ноября 2018

0 голосов

2 ответов

Как передать каждое значение столбца Spark Dataframe в виде строки в UDF Python?

Я пытаюсь GPG зашифровать столбец данных в искровом фрейме FName df = spark

Umi / 18 ноября 2018

0 голосов

1 ответ

Как включить многострочное чтение CSV-файла в pyspark

Я читаю файл CSV через PySpark. Это файл с разделителями кареткой. Имеет 5 столбцов. Мне нужно...

Sri / 18 ноября 2018

0 голосов

0 ответов

Могу ли я получить статистику профилирования для каждой задачи в PySpark?

Я пытаюсь исследовать запутанные задачи в своем задании PySpark (задачи, которые занимают намного...

krishonadish / 18 ноября 2018

0 голосов

0 ответов

Объединить массив объектов в pyspark

Рассмотрим следующий DF: df = spark.createDataFrame( [ Row( x='a', y=[ {'f1': 1...

gr8one / 17 ноября 2018

0 голосов

0 ответов

Pyspark .partitionBy (). Parquet () не сохраняет файлы

Я сейчас работаю в Azure Databricks. У меня есть один консолидированный спарк-фрейм с такими...

Grevioos / 17 ноября 2018

0 голосов

1 ответ

Может ли SnappyData загружаться из s3 и сохранять в s3?

Я недавно нашел сайт SnappyData.Меня интересует производительность запросов SparkSQL.Есть...

hiropon / 17 ноября 2018

0 голосов

0 ответов

почему существует остаточный Java-процесс даже после закрытия контекста искры

Я написал небольшое приложение на python, которое принимает запросы и выполняет задания pyspark в...

Srinivas Jill / 17 ноября 2018

0 голосов

1 ответ

Есть ли способ отправить искро задание на другой сервер под управлением мастера

У нас есть требование для планирования заданий на запуск, так как мы знакомы с apache-airflow, и мы...

Raghav salotra / 16 ноября 2018

0 голосов

0 ответов

Корреляция в Искре

Я пытаюсь получить корреляцию моих независимых переменных с целью (у). Я использую библиотеку ML от...

Damien / 16 ноября 2018

0 голосов

0 ответов

Как я могу определить сеансы из столбца datetime в pyspark

У меня есть журнал сервера, который в основном состоит из 3 столбцов: отметка времени ID Действие...

msabri / 16 ноября 2018

0 голосов

1 ответ

PySpark читает несколько файлов при создании нового столбца, содержащего имя существующего столбца

Я бы хотел прочитать n csv-файлы, используя pyspark.CSV имеет ту же схему, но с разными именами...

Joey / 16 ноября 2018

0 голосов

0 ответов

Навес Enthought: рабочий Python не смог подключиться обратно

Я использую навес enthought для запуска искры, интегрированной с python.Когда я выполняю создание...

Mahadevan Swamy / 16 ноября 2018

0 голосов

1 ответ

Проблемы с ноутбуком Jupyter, pyspark, hadoop-aws

Я пытаюсь использовать файлы Jupyter, PySpark и S3 (по протоколу s3a) вместе.Мне нужен org.apache

ashic / 16 ноября 2018