Вопросы с тегом pyspark

0 голосов

0 ответов

pyspark - самый быстрый способ записи данных в csv

В настоящее время я записываю фрейм данных в csv , используя write.csv. df.withColumn("x"...

priya / 23 апреля 2019

1 голос

0 ответов

Spark Добавить метаданные в файлы паркета / ORC

Ежедневно мне нужно обобщать действия клиентов для разных вариантов использования. Чтобы сохранить...

CodeGeek123 / 23 апреля 2019

0 голосов

1 ответ

Как сохранить фрейм данных с разными именами таблиц в каждой итерации, используя saveAsTable в pyspark

Платформа: RHEL 7, cloudera CDH 6.2 Hadoop Distrubution, Pyspark 3.7.1 Что я пытался: Я мог...

user1 / 23 апреля 2019

0 голосов

0 ответов

Как выполнить код PySpark в удаленном кластере?

Я использую удаленный кластер Spark с YARN. Я пытаюсь выполнить этот код в Windows и отправить код...

Alex Garcia / 23 апреля 2019

0 голосов

0 ответов

Входной путь не существует в pyspark для пути hadoop

Я пытаюсь получить файл из hdfs в pyspark, используя код Visual Studio ... Я проверил через jps,...

Gnanasekaran / 23 апреля 2019

0 голосов

0 ответов

Класс org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem не найден

Я пытаюсь докернизировать мой пограничный узел для моего кластера HDInsight Spark в облаке Azure

kskp / 23 апреля 2019

2 голосов

3 ответов

Почему передел Spark не сбалансировал данные в разделы?

>>> rdd = sc.parallelize(range(10), 2) >>> rdd.glom().collect() [[0, 1, 2, 3, 4],...

ccbycc123 / 23 апреля 2019

1 голос

1 ответ

Spark 2.1.1: Как предсказать темы в невидимых документах по уже обученной модели LDA в Spark 2.1.1?

Я обучаю модель LDA в pyspark (версия 2.1.1) на наборе данных отзывов клиентов.Теперь, основываясь...

Usman Khan / 23 апреля 2019

0 голосов

1 ответ

Где дельтабрик данных хранит свои метаданные?

Hive хранит свои метаданные. Я внешняя база данных, как SQL-сервер.Аналогично тому, где дельта...

Karthi Keyan / 23 апреля 2019

0 голосов

1 ответ

Как построить дерево Python XGBdecision для блоков данных

У меня проблема с построением дерева решений Xgboost для блоков данных.XGboost установлен для...

juske / 23 апреля 2019

0 голосов

0 ответов

Запись кадра данных в sql-server 2017 дает исключение: столбец FirstName имеет тип данных, который не может участвовать в индексе columnstore

В блоках данных я пытаюсь записать фрейм данных в хранилище данных sql, используя JDBC-коннектор.Я...

Bilal Shafqat / 23 апреля 2019

0 голосов

0 ответов

Клей AWS: java.lang.UnsupportedOperationException: источник данных CSV не поддерживает двоичный тип данных

Я пытаюсь реализовать upsert с aws glue и databricks, используя preactions и postactions, вот код...

swik / 23 апреля 2019

0 голосов

1 ответ

AttributeError: у объекта 'NoneType' нет атрибута 'persist'

Когда я пытаюсь сохранить Dataframe в pyspark, я сталкиваюсь с ошибкой AttributeError:...

yanice / 23 апреля 2019

1 голос

1 ответ

Как разделить столбец, содержащий несколько пар ключ-значение, на разные столбцы в pyspark

Я работаю над очень большим набором данных под названием Reddit в AWS.Сначала я прочитал небольшой...

Hongyang Zheng / 23 апреля 2019

2 голосов

1 ответ

Как вывести значения столбцов из pyspark dataframe в строку?

Я работаю с набором данных и хочу создать текстовый блок из всех значений определенного столбца под...

S Ali / 23 апреля 2019

0 голосов

1 ответ

Искровой фильтр не работает должным образом. Объект «Столбец» не вызывается

При использовании предложения "and" в фильтре в Spark Dataframe возвращается Spark.SQL.Column...

rapunzel / 23 апреля 2019

1 голос

2 ответов

Spark Scala: обновить значение столбца данных из другого кадра данных

a = +------------+------------+------+ | Name| Nationality|Salary|...

Salam / 22 апреля 2019

0 голосов

0 ответов

Кажется, что Pyenv запускает «неправильный» искровой исполняемый файл. Как это исправить?

Я не могу заставить pyspark работать с pyenv. Запуск pyspark во время активации virtualenv не...

cammil / 22 апреля 2019

0 голосов

0 ответов

Суммирование столбца данных плотного вектора

Я хочу суммировать столбец данных, где каждая строка имеет плотный вектор того же измерения.Вывод,...

bdflynn / 22 апреля 2019

0 голосов

1 ответ

написать в Google Cloud Storage, используя искра к абсолютному пути

Я пытаюсь записать искровой фрейм данных в облачное хранилище Google. Этот фрейм данных имеет...

karthik reddy / 22 апреля 2019

0 голосов

1 ответ

Pyspark - фильтр RDD с датами в словаре вещания

У меня есть транслируемый словарь Python, который содержит фильтры даты по пользователю....

DataTx / 22 апреля 2019

3 голосов

3 ответов

Подмножество одного столбца массива с другим (логическим) столбцом массива

У меня есть такой Dataframe (в Pyspark 2.3.1): from pyspark.sql import Row my_data = spark

shadowtalker / 22 апреля 2019

0 голосов

1 ответ

Как исправить приведенную ниже проблему при создании производного столбца в pyspark?

Я пытаюсь выполнить группирование для определенного столбца в кадре данных на основе данных,...

Vineel / 22 апреля 2019

0 голосов

0 ответов

Почему перераспределение не вступает в силу в огромном фрейме данных pyspark?

У меня 10 узлов с 32 ядрами и 125 г каждый.У меня также есть фрейм данных с именем oldEmployee с...

moudi / 22 апреля 2019

0 голосов

1 ответ

Что лучше, создание отдельного Dataframe или ссылка на dataframe с тем же именем

Добрый день. Я новичок в свечах. Я надеялся получить предложение о том, что лучше 1. Создание...

Kumar P / 22 апреля 2019