Вопросы с тегом pyspark

0 голосов

1 ответ

Как заставить pyspark использовать собственный питон?

Я использую удаленный искровой кластер zeppelin connect. Удаленная искра использует систему Python...

Mithril / 05 сентября 2018

0 голосов

1 ответ

Передать контекст зажигания как параметр между файлами в PySpark

Фрагменты кода: Файл 1: master.py # Spark Imports from pyspark import SparkContext,SparkConf from...

user3243478 / 05 сентября 2018

0 голосов

0 ответов

Pyspark: OSError: [WinError 10049] Запрошенный адрес недопустим в своем контексте

Я установил spark в своей системе, некоторое время использовал spark-shell, и он работал нормально....

Ashish Maheshwari / 05 сентября 2018

0 голосов

1 ответ

Pyspark: K означает результат с расстоянием или отклонением?

С https://spark.apache.org/docs/2.2.0/ml-clustering.html#k-means Я знаю, что после kmModel

cqcn1991 / 05 сентября 2018

0 голосов

0 ответов

Получить корреляцию из большой коллекции в pyspark

Как получить корреляцию очень большого набора данных? Я не мог сделать такой подход, https://spark

Gregorius Edwadr / 05 сентября 2018

0 голосов

0 ответов

Конвертировать Python Generators в PySpark

Я пытаюсь воссоздать этот урок на PySpark: приложение Doc2Vec. В какой-то момент мне нужно...

DebNa / 05 сентября 2018

0 голосов

0 ответов

Pyspark Dataframe, данные вставляются в раздел по умолчанию, несмотря на значения

У меня есть небольшой скрипт на python, который выбирает столбцы из существующей таблицы и...

Amine H / 05 сентября 2018

0 голосов

1 ответ

Spark читает один столбец из таблицы PostgreSQL

Вопрос Есть ли способ загрузить определенный столбец из таблицы базы данных (PostreSQL) в виде...

pehr.ans / 04 сентября 2018

0 голосов

4 ответов

pyspark создать словарь из данных в двух столбцах

У меня есть фрейм данных pyspark с двумя столбцами: [Row(zip_code='58542',...

too_many_questions / 04 сентября 2018

0 голосов

1 ответ

Оптимизация производительности Pyspark для соответствия Pandas / Dask?

У меня есть данные еженедельных временных рядов, и я пытаюсь использовать Pyspark SQL для...

Bill Stewart / 04 сентября 2018

0 голосов

2 ответов

Spark ML Ошибка: Неверно нет. классов, обнаруженных при использовании Linear SVC

Я работаю над проблемой двоичной классификации и использую SparkML, я обучил и оценил свои данные с...

Rudr / 04 сентября 2018

0 голосов

0 ответов

Загрузить вектор Spark ML во внешнюю таблицу (pyspark)

У меня очень большая таблица с двумя столбцами: первичным ключом и столбцом 'features',...

seth127 / 04 сентября 2018

0 голосов

0 ответов

org.elasticsearch.hadoop.EsHadoopIllegalArgumentException: не удается найти сопоставление для test-index

Когда я загружаю данные Elasticsearch в Spark DataFrame с помощью PySpark, я получаю следующую...

Markus / 04 сентября 2018

0 голосов

1 ответ

Фрейм данных PySpark: работа с дублированными именами столбцов после самостоятельного объединения

У меня есть такой фрейм данных (вдохновленный этим вопросом с немного другой настройкой): df3 =...

ira / 04 сентября 2018

0 голосов

2 ответов

Какие форматы файлов я могу сохранить как фрейм данных pyspark?

Я хотел бы сохранить огромный фрейм данных pyspark в виде таблицы Hive. Как я могу сделать это...

matthiasdenu / 04 сентября 2018

0 голосов

1 ответ

Spark hive udf: нет обработчика для исключения анализа UDAF

Создан один проект «spark-udf» и письменный улей udf, как показано ниже: package com.spark.udf...

Swapnil Chougule / 04 сентября 2018

0 голосов

1 ответ

TypeError: строковые индексы должны быть целыми числами при использовании Gerrit rest API для извлечения данных в pyspark

Я получаю ошибку, упомянутую выше, когда пытаюсь получить данные через API Gerrit Rest. Код...

Ankur Thakur / 04 сентября 2018

0 голосов

0 ответов

Не могу использовать keras model.predict в pyspark

def make_set(user_embed, country): entry_ids, feats = nation_feat[country][0],...

yanachen / 04 сентября 2018

0 голосов

0 ответов

pyspark пишет файлы Parquet с разной кодировкой

При использовании pyspark для записи файлов паркета, есть ли способ установить кодировку? Похоже,...

Hammer / 04 сентября 2018

0 голосов

3 ответов

Как запустить хозяина и раба на EMR

Я новичок в EMR, и теперь я не могу запустить свое приложение Spark на EMR. Мой вопрос заключается...

Bảo Gia / 04 сентября 2018

0 голосов

3 ответов

Преобразовать значение столбца в Dataframe в список

У меня есть следующий исходный файл. В моем файле есть имя "john", которое я хочу разделить на...

Gowdhaman008 / 04 сентября 2018

0 голосов

1 ответ

withColumn в искровом фрейме данных вставляет NULL в SaveMode.Append

У меня есть приложение spark для создания внешней таблицы Hive, которое работает нормально впервые...

Vicky / 04 сентября 2018

0 голосов

1 ответ

Spark Streaming 2.3.1 Типовое приведение: строка в метку времени

Я использую apsche spark streaming 2.3.1, где я получаю поток, содержащий значения меток времени...

shaikh / 04 сентября 2018

0 голосов

0 ответов

pyspark / dataframe - groupby (s), преобразование схемы

Я хотел бы выполнить какое-то преобразование, чтобы получить желаемый результат: До: Column 1 |...

jbpm / 04 сентября 2018

0 голосов

1 ответ

Значение PySpark с запятой не содержит запятую ?? (Попытка привести к ArrayType (StringType ()))

Я использую PySpark v1.6.0, и у меня есть столбец строковых значений (в соответствии с

devinbost / 04 сентября 2018