Вопросы с тегом pyspark

0 голосов

1 ответ

Как починить PySpark, jdk memory -issue?

Кажется, у меня проблемы с памятью при использовании пакета PySpark ML.Я пытаюсь использовать ALS

Luke Hndrch / 01 июля 2019

1 голос

0 ответов

Многократные операции PySpark терпят неудачу на кадре данных

Столбцы feature_1_(double) и feature_2_(double) в приведенном ниже кадре данных (df2) создаются с...

iJup / 01 июля 2019

0 голосов

1 ответ

Преобразование вывода "центров" KMeans в фрейм данных PySpark

Я использую модель кластеризации K-средних и хочу проанализировать центроиды кластеров, однако...

George / 01 июля 2019

0 голосов

1 ответ

создать столбец с диапазоном значений между значениями в двух других столбцах в pyspark

У меня есть две колонки A (год1) и B (год2) в искре.Мне нужно создать столбец C, который должен...

Jason Roy / 01 июля 2019

2 голосов

1 ответ

использование методов класса Python в RDD

Мой вопрос может звучать несколько похоже на это и это , но попытки их решения также не помогли мне

Kriti Arora / 01 июля 2019

1 голос

0 ответов

Невозможно выполнить какую-либо функцию над фреймом данных из-за истечения времени ожидания соединения сокета при использовании pyspark с Presto в EMR

Я хочу подключить свою искру, развернутую в EMR, к Presto, которая использует Hive в качестве...

Aviral Srivastava / 01 июля 2019

0 голосов

1 ответ

задержка планировщика в интерфейсе Spark

Я выполняю задания pyspark в кластере 2.3.0 на пряже. Я вижу, что все этапы имеют очень долгую...

user1450410 / 01 июля 2019

0 голосов

0 ответов

Масштабирование тяжелого алгоритмического приложения на Python через Spark UDF

Я использую Spark (более EMR 5.24.0) в качестве механизма распределенной обработки для большой...

Modi / 01 июля 2019

0 голосов

0 ответов

Установка spark.sql.codegen.wholeStage = false в pyspark, но все равно получение кода Java, сгенерированного в журналах

Я получаю ошибку ниже при разборе файла XML, который имеет 20 уровней вложенности в кластере...

Ankit Mathur / 01 июля 2019

2 голосов

1 ответ

Если вы сохраните DataFrame на диск, загрузит ли Spark эти данные, если вы используете этот DataFrame ниже в сценарии?

Если вы загрузите некоторые данные, вычислите DataFrame, запишите их на диск, а затем будете...

rjurney / 01 июля 2019

2 голосов

1 ответ

Python / PySpark анализирует строку JSON с пронумерованными атрибутами

Мне нужно хранить строки JSON, подобные приведенной ниже, в каком-то формате, отличном от открытого...

Averell / 01 июля 2019

3 голосов

2 ответов

Невозможно загрузить набор данных 25 ГБ в локальном режиме PySpark с 56 ГБ свободной памяти

У меня проблемы с загрузкой и обработкой набора данных Parquet 25 ГБ (из сообщений stackoverflow

rjurney / 01 июля 2019

0 голосов

1 ответ

Почему pyspark выбрасывает «объект Column» не вызывается »при попытке использования функции Window?

метка выпуска: emr-5.24.0 Распределение Hadoop: Amazon 2.8.5 Приложения: Spark 2.4.2, Hive 2.3.4 Я...

Thom Rogers / 01 июля 2019

0 голосов

0 ответов

Как создать 4-мерный RDD (похожий на 4D Numpy ndarray)?

Можно ли создать 4-мерный RDD, такой как 4D NumPyDarray, используя Union или что-то еще? Я...

Heena Rajan / 01 июля 2019

0 голосов

0 ответов

оптимизация функции сбора pyspark

У меня есть проблема, и я решил ее, используя фреймы данных pandas и регулярные выражения, чтобы...

Mhmd Dar / 30 июня 2019

0 голосов

0 ответов

Проблемы с форматом даты при использовании Pyspark с ноутбуком Jupyter

Я выбрал данные из Hadoop за последний день апреля, весь месяц май и первый день июня, вот так;...

Conz / 30 июня 2019

0 голосов

0 ответов

Как получить фактическое имя файла в сообщении об исключении в Databricks?

Я пытаюсь выяснить, как получить фактическое имя файла / модуля в сообщении об исключении в...

Anirban Nag 'tintinmj' / 30 июня 2019

1 голос

0 ответов

Не удалось сериализовать объект: Py4JError: Произошла ошибка при вызове o281 .__ getstate__

Я новичок в потоковой передаче и пытаюсь работать с прецедентным сценарием технического...

CarolineAntonia / 30 июня 2019

0 голосов

0 ответов

Строковое значение усекается при записи в Redshift

Я использую задание Glue для записи в Redshift, но значение столбца вставляется в усеченном...

Aditya Sahu / 30 июня 2019

2 голосов

1 ответ

Как ограничить наборы FPGrowth до 2 или 3

Я использую алгоритм FPGrowth с использованием pyspark в python3.6 с использованием ноутбука...

Shubham Bajaj / 30 июня 2019

0 голосов

2 ответов

Как просмотреть временные таблицы pyspark на сервере Thrift?

Я пытаюсь сделать временную таблицу созданной в pyspark доступной через Thrift. Моя конечная цель -...

Bruno Faria / 29 июня 2019

0 голосов

0 ответов

Логистический коэффициент регрессии матрица Писпарк

Я пытаюсь понять, что матрица коэффициентов в логистической регрессии в pyspark (особенно лассо)?...

jjojj / 29 июня 2019

0 голосов

0 ответов

Как улучшить производительность этой группы и агрегатов в PySpark?

Я пытаюсь преобразовать фрейм данных в RDD и затем выполнить операцию агрегирования (ключ =...

Rob / 29 июня 2019

0 голосов

1 ответ

загрузка данных в озеро дельты из хранилища лазурной капли

Я пытаюсь загрузить данные в озеро дельты из хранилища Azure BLOB.Я использую приведенный ниже...

Abhirup Bose / 29 июня 2019

0 голосов

1 ответ

Перестановка строк в кадре данных Spark

Я пытаюсь создать новый столбец во фрейме данных, который является просто перетасованной версией...

Chris / 29 июня 2019