Вопросы с тегом pyspark

0 голосов

1 ответ

создать новый столбец в фрейме данных pyspark, используя существующие столбцы

Я пытаюсь работать с фреймами данных pyspark и хотел бы узнать, как можно создать и заполнить новый...

Shanbog Shashank / 15 марта 2019

4 голосов

1 ответ

ToreeInstall ОШИБКА |Неизвестный переводчик PySpark.toree не может установить PySpark

Когда я устанавливаю PySpark для ноутбука Jupyter, я использовал этот cmd: jupyter toree install...

sequoia00 / 15 марта 2019

0 голосов

0 ответов

Проблема с Pyspark при использовании * .ec2.internal ip вместо реального ip при запросе hive hdfs

Как мне исправить адрес запроса в Pyspark при использовании операторов select? У меня проблема в...

HarshMarshmallow / 15 марта 2019

0 голосов

0 ответов

Pyspark вызывает java.lang.OutOfMemoryError: невозможно создать новый собственный поток при записи в S3

Pyspark, который копирует данные в файл S3, используя приведенный ниже фрагмент кода self.dataframe

Manoj4068 / 15 марта 2019

0 голосов

0 ответов

Как определить имя источника СДР при обработке каталога HDFS

В spark вы можете использовать sc.texFile для обработки каталога HDFS , как мне распечатать текущее...

Exorcismus / 15 марта 2019

0 голосов

1 ответ

Как создать дочерний фрейм данных из XML-файла с помощью Pyspark?

У меня есть все те библиотеки поддержки в pyspark, и я могу создать фрейм данных для родителя - def...

Bitto / 14 марта 2019

0 голосов

0 ответов

PySpark - Ошибка заголовка столбца паркетной доски в CSV (специальный символ "/")

У меня проблема с запуском этого - он отлично работает для номера дорожки, но для транзакции /...

Abi.sonic / 14 марта 2019

0 голосов

1 ответ

PySpark: объединение всех фреймов данных в словаре Python

У меня есть словарь my_dict_of_df, который состоит из переменной числа фреймов данных при каждом...

kev / 14 марта 2019

1 голос

2 ответов

PySpark Dataframe приводит два столбца к новому столбцу значений на основе кортежей третьего столбца.

Как описывает предмет, у меня есть PySpark Dataframe, который мне нужен для преобразования двух...

Gary C / 14 марта 2019

0 голосов

0 ответов

Как эффективно отбросить однозначные столбцы из фрейма данных

Как отбросить все столбцы, которые имеют одно значение, из кадра данных эффективно? Я нашел два...

Exorcismus / 14 марта 2019

0 голосов

0 ответов

"Metastore_db" в Derby используется искровым процессом, несмотря на остановку Spark Context

Я пытаюсь удалить «metastore_db» после остановки контекста Spark, но он выдает следующую ошибку:...

sumit kumar / 14 марта 2019

3 голосов

2 ответов

Эффективный способ объединения нескольких таблиц в Spark - на устройстве не осталось места

Подобный вопрос был задан здесь , но он не решает мой вопрос должным образом.У меня есть около 100...

cph_sto / 14 марта 2019

0 голосов

0 ответов

Как обрабатывать «&» или любой другой специальный символ при чтении файла XML / JSON с помощью pyspark?

Я читаю XML-файл, в котором много специальных символов, таких как «&». Я написал следующий пример...

Chauhan B / 14 марта 2019

1 голос

1 ответ

Столбец функций кластеризации Pyspark KMeans IllegalArgumentException

pyspark==2.4.0 Вот код, дающий исключение: LDA = spark.read.parquet('./LDA.parquet/') LDA

Artur Sokolovsky / 14 марта 2019

0 голосов

0 ответов

Структурированная потоковая передача PySpark с Kafka слишком медленно отправляет линии CSV?

Это длинный вопрос, но я попытался подробно описать проблему. У меня есть приложение Spark на...

Gus B / 14 марта 2019

0 голосов

0 ответов

Использование функций max, min и арифметических операций

Я пытаюсь преобразовать свой прикрепленный код T-sql в скрипт Pyspark CASE WHEN min(t

Katelyn Raphael / 14 марта 2019

0 голосов

0 ответов

Создание схемы вложенного массива для преобразования строки json в структуру в pyspark

Я пытаюсь создать схему, используемую для полного "структурирования" JSON-строки в столбце x фрейма...

abelo / 14 марта 2019

1 голос

1 ответ

Pyspark: удалить дубликаты, если между двумя столбцами есть обратный

У меня есть фрейм данных (около 20000000 строк), и я хотел бы удалить дубликаты из фрейма данных...

Ahmad Suliman / 14 марта 2019

2 голосов

0 ответов

Сохранение фрейма данных pyspark со сложной схемой в виде простого текста для тестирования

Как сделать чистые тестовые данные для pyspark? Я понял кое-что, что кажется довольно хорошим, но...

MrCartoonology / 14 марта 2019

0 голосов

0 ответов

Spark ALS Python - Установить диапазон прогнозов

Я работаю над заданием моего мастера, чтобы создать предиктор рейтинга фильма с помощью ALS от...

Mariano Peñas / 13 марта 2019

0 голосов

1 ответ

Spark пересматривает мои данные каждый раз, когда я запускаю что-то, связанное с образцом

Я запускаю стратифицированную выборку в наборе данных, в которой выборка хранится в фрейме данных с...

Marcela Bejarano / 13 марта 2019

0 голосов

3 ответов

Создание попарных кумулятивных статистических данных по строкам данных

У меня есть таблица с 3 столбцами: дата, идентификатор и ключ. Я надеюсь найти эффективный способ...

Fincher / 13 марта 2019

9 голосов

1 ответ

Оптимизирует ли spark одинаковые, но независимые группы доступности базы данных в pyspark?

Рассмотрим следующий код pyspark def transformed_data(spark): df = spark.read.json('data

Jorge Leitão / 13 марта 2019

0 голосов

0 ответов

Классификатор PySpark & MLLib & Random Forest: вероятности прогноза и оценка модели

Я использую RandomForestClassifier модель MLLIB в pyspark, и я хочу извлечь прогноз как вероятность...

SiSi / 13 марта 2019

0 голосов

1 ответ

Как обучить тестировать данные разделенных временных рядов в Pyspark Dataframe

Я хочу сделать разделение теста поезда на отсортированный фрейм данных Pyspark по времени....

Aritra Sen / 13 марта 2019