Вопросы с тегом pyspark

0 голосов

0 ответов

Преобразовать строку в регулярное выражение для объединения через rlike в Spark

def regex_maker(list1): new_list = ["^"] for i in range(1, len(list1)): new_list

Daniel / 17 декабря 2018

0 голосов

1 ответ

Искра в Панд

У меня 220 ГБ данных.Я прочитал его в искровой dataframe в виде 2 столбцов: JournalID и Text.Теперь...

drp / 17 декабря 2018

0 голосов

0 ответов

pyspark: вычислить последовательную разницу по ID

Мой вопрос точно такой же как Разница между двумя последовательными строками по ID , но для pyspark

mommomonthewind / 17 декабря 2018

0 голосов

1 ответ

pipenv: TypeError: приведение к Unicode: нужна строка или буфер, тип найден

Я пытаюсь установить pyspark 2.4.0 в репозиторий моего проекта с помощью pipenv.Я пытаюсь создать...

python_noob / 17 декабря 2018

0 голосов

2 ответов

pyspark: удалить столбцы с одинаковыми значениями во всех строках

Смежный вопрос: Как удалить столбцы с одинаковыми значениями во всех строках с помощью панд или...

mommomonthewind / 17 декабря 2018

0 голосов

1 ответ

Как исправить «ImportError: Pandas> = 0.19.2 должен быть установлен; однако он не был найден»?

Я использую Spark 2.3.1 и хочу использовать toPandas() (для использования unique()). Когда я...

Abhi / 17 декабря 2018

0 голосов

1 ответ

Как я могу сохранить CSV заполнить в сжатом формате Snappy Pyspark - версия 2.0+

Я пробовал приведенный ниже код - riders.write.csv(path="/loudacre/devices4_csv",...

Phoenix14 / 17 декабря 2018

0 голосов

1 ответ

у меня есть строка json в моем фрейме данных, я уже пытался извлечь столбцы json sting с помощью pyspark

df = spark.read.json ("dbfs: / mnt / evbhaent2blobs", multiLine = True) df2 = df.select (F.col...

Swathi T / 16 декабря 2018

0 голосов

0 ответов

Pyspark не работает и выдает исключение Java: процесс шлюза Java завершился перед отправкой номера порта

Я начал работать с pyspark, я установил его и запустил на jupyter-notebook, вот проблема, с которой...

Junaid Ali / 16 декабря 2018

0 голосов

0 ответов

Проблема с Java после установки ApacheSpark в Windows 10

Я установил искру в Windows 10. Я пытаюсь выполнить приведенный ниже код sc = SparkContext

etl_devs / 16 декабря 2018

0 голосов

1 ответ

Pyspark k-кратная перекрестная проверка среднего RMSE

Я выполняю линейную регрессию с k-кратной перекрестной проверкой набора данных с использованием...

user3648346 / 16 декабря 2018

0 голосов

0 ответов

Отправляйте данные в потоковом режиме из Twitter напрямую в Spark без сокета: Pyspark

Я пытаюсь отправить данные из твиттера (в формате json) напрямую в структурированную потоковую...

LUZO / 16 декабря 2018

0 голосов

1 ответ

Есть ли способ заставить работников Spark использовать версию с распределенной версией вместо установленной на них?

Ситуация выглядит следующим образом: работая на корпоративном кластере с поддержкой версии 2.3, я...

Ezer K / 16 декабря 2018

0 голосов

1 ответ

AttributeError: у объекта 'SparkSession' нет атрибута 'time'

Я выполняю запрос SQL и хочу иметь возможность распечатать, сколько времени потребуется для...

spark dev / 16 декабря 2018

0 голосов

0 ответов

Инициализируйте ошибку SQLContext в Spark Python

Если кто-либо сталкивался с этой проблемой ранее, дайте мне знать, что будет приветствоваться...

shrinath / 16 декабря 2018

0 голосов

1 ответ

Подсчет количества раз массив содержит строку на категорию в PySpark

Я начинаю с искрового массива "df_spark": from pyspark.sql import SparkSession import pandas as pd...

Oliver Angelil / 16 декабря 2018

0 голосов

1 ответ

«ожидаемые нулевые аргументы для построения ClassDict (для numpy.dtype)» при вызове UDF, который возвращает FloatType ()

Я полагаю, что это связано с этим: Ошибка искры: ожидаемые нулевые аргументы для построения...

mommomonthewind / 16 декабря 2018

0 голосов

0 ответов

Падение уровня из колонки с горячим кодированием в Spark

Если у меня уже есть столбец, созданный OneHotEncoderEstimator, как я могу отбросить один из...

moefasa / 16 декабря 2018

0 голосов

1 ответ

PySpark не может получить доступ к столбцу, который был добавлен с помощью StringIndexer

PySpark - v2.4.0 Я пытался преобразовать String столбец Country в Interger столбец Country_ID,...

kosi / 16 декабря 2018

0 голосов

1 ответ

Удалить все столбцы StructType из PySpark DataFrame

У меня есть фрейм данных df, который читает файл JSON следующим образом: df = spark.read

Sameer / 16 декабря 2018

0 голосов

0 ответов

Pyspark шаблон предложения Eclipse

Я тестирую pyspark на Eclipse, но у меня есть небольшая проблема.Когда я создаю фрейм данных и...

carlosgv / 16 декабря 2018

0 голосов

1 ответ

Невозможно записать фрейм данных в БД Cosmos / documentDB из Databricks с pySpark

При попытке сохранить фрейм данных, над которым я работаю, в коллекцию documentDB возникает ошибка,...

Vincent Chalmel / 16 декабря 2018

0 голосов

0 ответов

pyspark ALS Collaborative Filtering - генерация объяснений прогнозов

Пакет рекомендаций pyspark ml включает реализацию ALS, основанную на статье Ху, Корена и...

recondite_information / 15 декабря 2018

0 голосов

1 ответ

pyspark: фильтрация строк по длине внутренних значений

У меня есть фрейм данных PySpark со столбцом, содержащим список Python id value 1 [1,2,3] 2 [1,2] Я...

mommomonthewind / 15 декабря 2018

0 голосов

0 ответов

Различные показатели AUC возвращены в EMR 5.19.0 против 5.17.0

Я обнаружил крайне странное поведение EMR при выполнении логистической регрессии через PySpark в...

Evan Zamir / 15 декабря 2018