Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

0 голосов
0 ответов

Я пытаюсь оптимизировать приложение Spark Streaming, которое собирает данные из кластера Kafka,...

Gus B / 30 августа 2018
0 голосов
2 ответов

У меня есть два Python dataframes, я проверяю их перед заполнением, поэтому иногда один из них пуст

user006 / 30 августа 2018
0 голосов
1 ответ

from pyspark.ml.feature import MinMaxScaler from pyspark.ml.linalg import Vectors df = spark

Mario T. / 30 августа 2018
0 голосов
0 ответов
0 голосов
0 ответов

Я читаю сжатый файл .gz в pyspark на EMR. Но файл имеет неправильный формат (это файл json с...

TopCoder / 30 августа 2018
0 голосов
0 ответов

У меня есть кластер kubernetes, в котором я развернул собственный искровой кластер. У Spark есть...

Ciprian Tarta / 29 августа 2018
0 голосов
1 ответ

У меня есть PySpark DataFrame со столбцами people и timestamp (плюс дополнительные столбцы, которые...

RaspyVotan / 29 августа 2018
0 голосов
1 ответ

У меня есть экземпляр словаря, который имеет Unicode (использует UTF-8) ключ и значение в качестве...

Ajay / 29 августа 2018
0 голосов
0 ответов

У меня есть несколько локальных серверов разработки с обратной связью, которые я использую в Centos...

Miguel A. Friginal / 29 августа 2018
0 голосов
1 ответ

в запросе, чтобы выбрать некоторые столбцы из кадра данных, у меня есть тип столбца: карта, которая...

Amine H / 29 августа 2018
0 голосов
1 ответ

У меня есть запрос pyspark, который возвращает WrappedArray: det_port_arr =...

Prettyfield / 29 августа 2018
0 голосов
0 ответов

Я пытаюсь подключить свой локальный IP-адрес с помощью сеанса спарка: - spark = SparkSession.\...

charchit bakliwal / 29 августа 2018
0 голосов
2 ответов

У меня есть таблица в улье, и я читаю эту таблицу в pyspark df_sprk_df from pyspark import...

Shivpe_R / 29 августа 2018
0 голосов
0 ответов

Я понимаю, что в StackOverflow есть похожие сообщения (например, one ), но я все еще не смог...

Blanc Violets / 29 августа 2018
0 голосов
0 ответов

Как я могу инициировать выполнение нескольких скриптов Pyspark из одной записной книжки параллельно

aneeshaasc / 29 августа 2018
0 голосов
0 ответов

Я написал udf в pyspark, в котором используется цикл for с индексами (в основном это всего...

Charles Van Damme / 29 августа 2018
0 голосов
1 ответ

Я настроил новую систему, spark 2.3.0, python 3.6.0, чтение данных и другие операции, работающие...

Aakash Basu / 29 августа 2018
0 голосов
0 ответов

Какая версия Py4J идет с Spark 2.3.1? У меня есть py4j-0.10.7, но выдает ошибку из-за определенных...

Aakash Basu / 29 августа 2018
0 голосов
0 ответов

Я собрал клиента Kafka, который извлекает данные из записи Kafka в Elasticsearch, программа...

user3243478 / 29 августа 2018
0 голосов
1 ответ

Я относительно новичок в PySpark. Я пытался кэшировать данные 30 ГБ, потому что мне нужно выполнить...

lU5er / 29 августа 2018
0 голосов
1 ответ

Мне нужно обработать фрейм данных, содержащий логи (вход и выход) для приложения Данные приведены...

Purmanund Sookun / 29 августа 2018
0 голосов
1 ответ

Когда я пытаюсь установить зависимость пакета "spark-sftp" в моей конфигурации Spark, я получаю...

Manideep / 29 августа 2018
0 голосов
1 ответ

Я новичок в pyspark и пытаюсь воссоздать код, написанный на python. Я пытаюсь создать новый фрейм...

Dana McDowelle / 28 августа 2018
0 голосов
0 ответов

У меня достаточно большой (~ 1 ТБ) набор данных Parquet, разделенный столбцом database_id. Я хочу...

ostrokach / 28 августа 2018
0 голосов
1 ответ

У меня есть фреймы данных со столбцами местоположений, и каждая ячейка содержит список названия...

Sanjiv Rai / 28 августа 2018
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...