Вопросы с тегом pyspark

0 голосов

0 ответов

Spark Streaming - Продолжительность работы против отправленного

Я пытаюсь оптимизировать приложение Spark Streaming, которое собирает данные из кластера Kafka,...

Gus B / 30 августа 2018

0 голосов

2 ответов

Объединение пустого Dataframe с полным Dataframe Python

У меня есть два Python dataframes, я проверяю их перед заполнением, поэтому иногда один из них пуст

user006 / 30 августа 2018

0 голосов

1 ответ

отменить масштаб данных Pyspark

from pyspark.ml.feature import MinMaxScaler from pyspark.ml.linalg import Vectors df = spark

Mario T. / 30 августа 2018

0 голосов

0 ответов

Как редактировать конец s3 объектных ключей?

inputfile='s3a://storename/stores.csv' output_file='s3a://storename/newstores

sam / 30 августа 2018

0 голосов

0 ответов

pyspark - чтение искаженного файла .gz

Я читаю сжатый файл .gz в pyspark на EMR. Но файл имеет неправильный формат (это файл json с...

TopCoder / 30 августа 2018

0 голосов

0 ответов

Spark на Kubernetes - Отправка заданий из запущенного модуля через pyspark

У меня есть кластер kubernetes, в котором я развернул собственный искровой кластер. У Spark есть...

Ciprian Tarta / 29 августа 2018

0 голосов

1 ответ

PySpark DataFrame: отмечать строки, в которых изменяется значение некоторых столбцов

У меня есть PySpark DataFrame со столбцами people и timestamp (плюс дополнительные столбцы, которые...

RaspyVotan / 29 августа 2018

0 голосов

1 ответ

Преобразовать словарь в фрейм данных в pyspark для ключа Unicode и списка значений с плавающей запятой

У меня есть экземпляр словаря, который имеет Unicode (использует UTF-8) ключ и значение в качестве...

Ajay / 29 августа 2018

0 голосов

0 ответов

Есть ли способ проверить потоковую передачу pyspark с помощью локальной петли?

У меня есть несколько локальных серверов разработки с обратной связью, которые я использую в Centos...

Miguel A. Friginal / 29 августа 2018

0 голосов

1 ответ

pyspark: выберите столбцы со специальными символами из столбца типа карты

в запросе, чтобы выбрать некоторые столбцы из кадра данных, у меня есть тип столбца: карта, которая...

Amine H / 29 августа 2018

0 голосов

1 ответ

Как распаковать pyspark WrappedArray

У меня есть запрос pyspark, который возвращает WrappedArray: det_port_arr =...

Prettyfield / 29 августа 2018

0 голосов

0 ответов

Настройка мастер-URL для свечей в pyspark для конкретного IP

Я пытаюсь подключить свой локальный IP-адрес с помощью сеанса спарка: - spark = SparkSession.\...

charchit bakliwal / 29 августа 2018

0 голосов

2 ответов

pivepark Hive Context - чтение таблицы с кодировкой UTF-8

У меня есть таблица в улье, и я читаю эту таблицу в pyspark df_sprk_df from pyspark import...

Shivpe_R / 29 августа 2018

0 голосов

0 ответов

Застрял в поиске работоспособного решения, чтобы исправить ошибку pyspark недоступно в ноутбуке Jupyter

Я понимаю, что в StackOverflow есть похожие сообщения (например, one ), но я все еще не смог...

Blanc Violets / 29 августа 2018

0 голосов

0 ответов

Выполнение нескольких сценариев Pyspark параллельно

Как я могу инициировать выполнение нескольких скриптов Pyspark из одной записной книжки параллельно

aneeshaasc / 29 августа 2018

0 голосов

0 ответов

Pyspark: как сделать так, чтобы ваш udf не распространялся на разных работников

Я написал udf в pyspark, в котором используется цикл for с индексами (в основном это всего...

Charles Van Damme / 29 августа 2018

0 голосов

1 ответ

RDD Collect Issue

Я настроил новую систему, spark 2.3.0, python 3.6.0, чтение данных и другие операции, работающие...

Aakash Basu / 29 августа 2018

0 голосов

0 ответов

Несоответствие версии Py4J со Spark 2.3.1

Какая версия Py4J идет с Spark 2.3.1? У меня есть py4j-0.10.7, но выдает ошибку из-за определенных...

Aakash Basu / 29 августа 2018

0 голосов

0 ответов

KafkaUtils.createStream прекращает сбор данных через некоторое время

Я собрал клиента Kafka, который извлекает данные из записи Kafka в Elasticsearch, программа...

user3243478 / 29 августа 2018

0 голосов

1 ответ

Pyspark: java.lang.OutOfMemoryError: превышен предел издержек GC

Я относительно новичок в PySpark. Я пытался кэшировать данные 30 ГБ, потому что мне нужно выполнить...

lU5er / 29 августа 2018

0 голосов

1 ответ

как объединить строки в dataFrame на основе условия в pyspark

Мне нужно обработать фрейм данных, содержащий логи (вход и выход) для приложения Данные приведены...

Purmanund Sookun / 29 августа 2018

0 голосов

1 ответ

Как добавить любую новую библиотеку, такую как spark-sftp, в мой код Pyspark?

Когда я пытаюсь установить зависимость пакета "spark-sftp" в моей конфигурации Spark, я получаю...

Manideep / 29 августа 2018

0 голосов

1 ответ

pyspark агрегирует каждые n строк

Я новичок в pyspark и пытаюсь воссоздать код, написанный на python. Я пытаюсь создать новый фрейм...

Dana McDowelle / 28 августа 2018

0 голосов

0 ответов

Применение функции к разделенному набору данных Parquet без перемешивания

У меня достаточно большой (~ 1 ТБ) набор данных Parquet, разделенный столбцом database_id. Я хочу...

ostrokach / 28 августа 2018

0 голосов

1 ответ

пересечение pyspark из двух столбцов датафреймов, находящихся в типе списка

У меня есть фреймы данных со столбцами местоположений, и каждая ячейка содержит список названия...

Sanjiv Rai / 28 августа 2018