Вопросы с тегом pyspark

0 голосов

2 ответов

Pyspark - удаляет дубликаты с датафрейма, сохраняя последний вид

Я пытаюсь дедуплицировать искровой фрейм данных, оставляя только последнее появление.Дублирование...

David Kon / 13 ноября 2018

0 голосов

0 ответов

Ссылка на файлы из почтового индекса, которые загружаются через Spark Submit

Пытаюсь запустить потоковое задание Spark [Родительское задание], основываясь на некоторых условиях...

Joby / 13 ноября 2018

0 голосов

0 ответов

Ошибка переполнения стека из-за длинной линии в цикле для (в DataFrame)

У меня есть итеративный алгоритм (pyspark), в котором я обновляю часть моего Spark DataFrame. Я...

Geek88 / 13 ноября 2018

0 голосов

2 ответов

Как я могу перебрать столбец искрового фрейма данных и получить доступ к значениям в нем по одному?

У меня есть искровой датафрейм Вот оно Я хотел бы получить значения столбца одно за другим, и мне...

RAM SHANKER G / 13 ноября 2018

0 голосов

0 ответов

Pyspark считывает изображения из локального файла и отображает их в pyspark.

У меня есть некоторый png-файл в моей локальной папке, и я хотел бы прочитать их как изображение и...

melik / 13 ноября 2018

0 голосов

1 ответ

Почему PySpark выполняет только оператор по умолчанию в моем пользовательском `SQLTransformer`

Я написал кастом SQLTransformer в PySpark.И установка оператора SQL по умолчанию обязательна для...

Bentech / 13 ноября 2018

0 голосов

0 ответов

Spark DataFrame: присоединение застряло на одной сцене

Я работаю над объединением двух больших наборов данных с количеством строк 17M и 2,2M. Размер...

Akul Narang / 13 ноября 2018

0 голосов

2 ответов

PySpark: как определить путь к файлу ресурса, находящемуся внутри zip-файла зависимостей

У меня есть mapPartitions на СДР, и в каждом разделе должен быть открыт файл ресурса.Этот модуль,...

void / 13 ноября 2018

0 голосов

0 ответов

Разбить столбцы с вложенным списком в pyspark, используя фреймы данных

У меня есть датафрейм, имеющий столбец ниже: [Row( col_1=True, col_2=[Row(val1=70, val2=None,...

Sandie / 13 ноября 2018

0 голосов

1 ответ

pyspark генерирует все комбинации уникальных значений

Я пытаюсь сгенерировать все комбинации уникальных значений в моем искровом фрейме данных.Решение,...

user1877600 / 13 ноября 2018

0 голосов

0 ответов

Spark - загрузить CSV в архив gz с расширением в верхнем регистре

Я использую библиотеку pyspark для загрузки огромных CSV-файлов. CSV-файлы помещаются в архив gz....

Juraj / 13 ноября 2018

0 голосов

1 ответ

пропустить строки из CSV-файла, если он содержит определенное ключевое слово в Pyspark

У меня есть CSV-файл с подробной информацией, как показано ниже: emp_id,emp_name,emp_city...

vikrant rana / 13 ноября 2018

0 голосов

1 ответ

Как выполнить повышение с помощью функции sample () (py-spark)

Я работаю над проблемой машинного обучения двоичной классификации и пытаюсь сбалансировать...

Tushar Mehta / 13 ноября 2018

0 голосов

1 ответ

Как использовать PySpark для потоковой передачи данных в базу данных MySQL?

В настоящее время я работаю над одностраничным веб-приложением, которое позволяет пользователям...

Mario / 12 ноября 2018

0 голосов

1 ответ

Как проанализировать данные файла EDIFACT с помощью apache spark?

Может кто-нибудь посоветовать мне, как анализировать данные формата EDIFACT с помощью Apache spark?...

VVGSRK / 12 ноября 2018

0 голосов

1 ответ

добавить столбец из необработанного df в giped df в pyspark

Здравствуйте. Я создал сгруппированный фрейм данных из необработанного фрейма с помощью этой...

yigitozmen / 12 ноября 2018

0 голосов

1 ответ

Установите Hive TBLPROPERTIES, используя (py) Spark

Мне нужно установить пользовательское свойство в одной из моих таблиц Hive с помощью pySpark....

Gustavo Saidler / 12 ноября 2018

0 голосов

0 ответов

Mllib неизвестной кодировки PySpark

У меня есть MatrixFactorizationModel , и я пытаюсь получить функции модели, но при выполнении кода...

lsmor / 12 ноября 2018

0 голосов

0 ответов

Запись данных в JSON как единый объект

У меня есть фрейм данных, который я пытаюсь записать в папку S3 в виде JSON. df.printSchema root...

dreddy / 12 ноября 2018

0 голосов

0 ответов

Как ускорить процесс jaro-winkler в python (многопоточность? Pyspark?)

Я использую jaro-winkler для оценки сходства текста в python 3. Мой сравнительный набор...

Zoe / 11 ноября 2018

0 голосов

0 ответов

Pyspark и локальные переменные внутри UDF

Что именно происходит, когда я определяю локальную переменную, такую как огромный список сложных...

holypriest / 11 ноября 2018

0 голосов

1 ответ

Есть ли способ преобразовать искровой фрейм данных, сгенерированный из оператора SQL в RDD?

если я использую этот иск SQL: df = spark.sql('SELECT col_name FROM table_name') вернет...

Miguel 2488 / 11 ноября 2018

0 голосов

1 ответ

Вывести значение столбца, отличного от Ascii, python-spark

Довольно плохо знаком с python и spark, я написал udf для удаления не-ascii символа, если он...

Viv / 10 ноября 2018

0 голосов

1 ответ

Почему при импорте pyspark в python3 требуется доступ суперпользователя на моей машине с Linux?

Я установил pyspark, используя pip3. Всякий раз, когда я пытаюсь import pyspark в python3, я...

CodeChari / 10 ноября 2018

0 голосов

0 ответов

pyspark.ml: ошибка исключения при передаче больших данных методу fit ()

Я использую библиотеки pyspark.ml для создания и обучения моделей для классификации твитов. Я...

ebt_dev / 10 ноября 2018