Вопросы с тегом pyspark

0 голосов

0 ответов

Создать Вектор всех слов в документах, используя PySpark

У меня есть несколько документов, и моя цель - вычислить косинусное сходство для каждой пары...

Soheil Pourbafrani / 25 октября 2018

0 голосов

1 ответ

Обработка преобразования строки в массив в фрейме данных pyspark

У меня есть файл (csv), который при чтении в искровом фрейме данных имеет следующие значения для...

kunal / 25 октября 2018

0 голосов

2 ответов

Spark - преобразование DataFrame в RowMatrix для эффективного вычисления сходства всех пар

У меня большой DataFrame, заполненный отношениями между пользователями и элементами, например:...

manuhortet / 25 октября 2018

0 голосов

2 ответов

Проблема с чтением битового типа данных из MySQL и преобразованием в Redshift с помощью AWS Glue

У меня есть таблица в базе данных MySQL, которая содержит столбец с именем activity, который имеет...

KDilla / 25 октября 2018

0 голосов

1 ответ

Как настроить зависимые компоненты python spark job на кластере EMS aws

Я написал программу spark, которая должна выполняться на кластере EMR.Но есть некоторые зависимые...

Sandie / 25 октября 2018

0 голосов

1 ответ

TypeError: ArrayType (DoubleType, true) не может принять объект u '..'

Я не могу создать DataFrame из-за coordinates.Это поле не соответствует типу схемы...

Markus / 25 октября 2018

0 голосов

0 ответов

Использование когда оператор с несколькими и условиями в Python

Мои данные выглядят так, как показано ниже +------------+--------------+---------------+ |domain |...

EricA / 25 октября 2018

0 голосов

1 ответ

TypeError: схема должна быть StructType или list или None

Может кто-нибудь объяснить мне, что происходит в моем коде?Ниже я приведу небольшой воспроизводимый...

Markus / 25 октября 2018

0 голосов

1 ответ

StringIndexerModel inputCol

У меня есть кластер с искрой 2.1 и процесс, который в конце записывает в файл PipelineModel,...

nicola / 25 октября 2018

0 голосов

1 ответ

Concat несколько файлов в Pyspark

Хотите объединить содержимое нескольких файлов в одном фрейме данных, используя pyspark, как мы...

H. KS / 25 октября 2018

0 голосов

1 ответ

Не удалось прочитать CSV-файл в pyspark

Я новичок в pyspark, и я сделал несколько начальных уроков.Когда я пытаюсь загрузить файл CSV на...

Sitaram / 25 октября 2018

0 голосов

0 ответов

Дата карты PySpark Map в простом файле считывается, чтобы извлечь год-неделю

У меня есть текстовый файл, который я хотел бы прочитать в Spark SQL на Python.Он содержит столбец...

Daniel / 25 октября 2018

0 голосов

1 ответ

Найти продолжительность времени между двумя последовательными состояниями в pyspark или улье

У меня есть фрейм данных, который выглядит как показано ниже со столбцами: ID, STATE and TIMESTAMP

Bhuvi007 / 25 октября 2018

0 голосов

0 ответов

pyspark Нет файловой системы для схемы: s3 Поставщик org.apache.hadoop.fs.s3a.S3AFileSystem не может быть создан

Как я могу прочитать объекты S3 с локальной установкой pyspark?Я прошел мимо "Нет файловой системы...

user1 / 25 октября 2018

0 голосов

1 ответ

Преобразование 2D матрицы - Dataframe в плоскую таблицу в PySpark

У меня есть фрейм данных PySpark, который выглядит следующим образом: id header1 header2 header3 ..

gacharya / 25 октября 2018

0 голосов

0 ответов

EOFError в pyspark

Я пытаюсь выполнить следующие команды из блокнота zeppelin. %livy.pyspark from pyspark.sql import...

Tushar Agarwal / 25 октября 2018

0 голосов

0 ответов

spark xml: нужен тип структуры, но есть строка;

У меня есть папка, которая состоит из файлов XML, и мы предполагаем, что эти файлы имеют одинаковую...

Alex S / 24 октября 2018

0 голосов

2 ответов

получить первые N элементов из столбца данных ArrayType в pyspark

У меня есть искровой фрейм данных со строками в виде - 1 | [a, b, c] 2 | [d, e, f] 3 | [g, h, i]...

Vipul Sharma / 24 октября 2018

0 голосов

0 ответов

Как преобразовать столбец данных в массив массивов?

Я хочу запустить линию регрессии, используя PySpark. У меня есть следующая СДР: WeightHeight =...

lauvdb / 24 октября 2018

0 голосов

0 ответов

Получение ошибки с помощью sparkSession при использовании многопроцессорной обработки в PySpark

Мой код выглядит следующим образом: def processFiles(prcFile , spark:SparkSession): print(prcFile)...

sanjeev kumar / 24 октября 2018

0 голосов

0 ответов

Spark 2.x - Shuffle на «маленьких» данных вылетает «большим» исполнителям

Приложение My (Py) Spark 2.1.1 состоит из двух исполнителей с 5 ядрами и кучей 30G (spark.executor

p_lnhrt / 24 октября 2018

0 голосов

1 ответ

pyspark заменяет отрицательное значение на ноль

Я могу попросить помощи о замене отрицательного значения с разного между отметкой времени на ноль

Jimmy / 24 октября 2018

0 голосов

0 ответов

Pyspark & HDFS: добавление нового столбца данных в существующие файлы паркета в формате hdf.

позвольте мне сначала начать с моего сценария: у меня есть большой массив данных, хранящийся в HDFS

Werner / 24 октября 2018

0 голосов

1 ответ

PySpark Как анализировать и получать имена полей из объекта StructType схемы Dataframe

Я создал Dataframe из таблицы Hive и хочу получить имена полей / столбцов. >>>a=df.schema...

AJIT SONAWANE / 24 октября 2018

0 голосов

1 ответ

Разделить столбец данных PySpark в точке

Я пробовал ниже в Пандах, и это работает.Я задавался вопросом, как я мог бы сделать это в PySpark?...

kikee1222 / 24 октября 2018