Вопросы с тегом pyspark

2 голосов

0 ответов

PySpark Array <double>не является массивом <double>

Я использую очень простой скрипт Spark (2.4.0 для Databricks): from pyspark.ml.clustering import...

Ryan / 11 апреля 2019

0 голосов

2 ответов

Поддерживает ли Spark Kubernetes аргумент --py-files?

Я пытаюсь запустить работу PySpark с использованием Kubernetes. Основной скрипт и py-файлы...

Pablo / 11 апреля 2019

0 голосов

0 ответов

Получение исключения 'ModulenotFound' для pyspark на Intellij

Я пытаюсь настроить pyspark на Intellij-Idea. Всякий раз, когда я пытаюсь запустить любой пример...

Ashish Kumar / 11 апреля 2019

0 голосов

1 ответ

тест на значение позиции потока Кафки

Я хочу проверить значение позиции потока Кафки, если равное значение имеет, например, "2", затем...

aigle_5 / 11 апреля 2019

0 голосов

0 ответов

PySpark - Преобразование списков списков Python в RDD списка строк - RDD (List (String))

Я пытаюсь отформатировать данные для подачи в модель SparkML Word2Vec. В настоящее время у меня...

moby / 11 апреля 2019

1 голос

0 ответов

PySpark - добавить новый столбец после агрегирования

Я пытаюсь сгруппировать столбцы и взять минимум.Затем используйте минимальное значение, чтобы...

user1584253 / 11 апреля 2019

1 голос

0 ответов

Модуль не найден в UDF для Pandas для нескольких узлов

Я пытаюсь запустить функцию pandas udf в блокноте jupyter, куда я хочу импортировать модуль,...

Steven Zhu / 11 апреля 2019

0 голосов

0 ответов

Получение None.org.apache.spark.sql.execution.python.UserDefinedPythonFunction

Я определил несколько простых функций, таких как: def median_func(xs): List_median=sorted(xs) if...

Shubham A. / 11 апреля 2019

0 голосов

1 ответ

Функция To_Date всегда возвращает ноль

У меня есть столбец в формате строки, который я получаю через: session.sql("select...

JohnDole / 11 апреля 2019

0 голосов

0 ответов

Выполните хранимую процедуру msdb с помощью pyspark jdbc

PySpark имеет df = spark.read.jdbc() Он также имеет df.write.jdbc() Есть ли у него мода spark

Steve Lyle-CSG / 11 апреля 2019

1 голос

1 ответ

Состояние фильтра данных Pyspark ИЛИ условие

Я пытаюсь отфильтровать мой фрейм данных pyspark на основе условия OR следующим образом:...

crystyxn / 11 апреля 2019

1 голос

1 ответ

функция задержки pyspark для одного столбца на основе значения в другом столбце

Я хочу иметь возможность создать значение запаздывания на основе значения в одном из столбцов. в...

SatZ / 11 апреля 2019

0 голосов

0 ответов

Pyspark присоединяется к выражению регулярного выражения, возвращая неожиданные результаты

Я выполняю внутреннее объединение 2-х фреймов данных pyspark.Первый содержит мой набор данных,...

Leah / 11 апреля 2019

0 голосов

1 ответ

У меня есть таблица 't' с двумя столбцами 'col24' и 'col23'. Я хочу создать фрейм данных 'r'

Представьте себе таблицу t с двумя столбцами - col24 и col18. Я хочу создать фрейм данных 'r'....

aswath seer / 11 апреля 2019

1 голос

1 ответ

from_json SQL-функция Pyspark: значение по умолчанию для не найденных ключей?

Я использую функцию from_json Pyspark SQL, как обычно, например ::100100 >>> import...

frb / 11 апреля 2019

0 голосов

1 ответ

При сопоставлении строк с использованием конвейера ML возникла ошибка. Не удалось выполнить пользовательскую функцию ($ anonfun $ 1: (вектор) => массив <vector>)

Я пытаюсь сопоставить строки на двух данных.Допустим, dataframe1 содержит X предложений, а...

Neel / 11 апреля 2019

0 голосов

0 ответов

Как получить данные с Кассандры через pyspark?

Я пытаюсь получить данные от Кассандры через pyspark. И я получил разъем от github . Но я не смог...

chenyn / 11 апреля 2019

0 голосов

0 ответов

Как отправить проанализированные данные из потокового твиттера от производителя к потребителю

Я пытаюсь провести анализ настроений в реальном времени для твиттера. Я могу отправлять потоковые...

gdphy / 11 апреля 2019

0 голосов

0 ответов

Получить статус возврата кода Python, отправленного через спарк-оболочку

Я подаю заявку в python / pyspark через spark shell, используя скрипт оболочки.Тем не менее, даже...

aess / 11 апреля 2019

0 голосов

2 ответов

Как гомогонизировать данные в фрейме данных Pyspark spark.sql

Я скачал 1,9 ГБ CSV-файл, содержащий данные AirBnB. Хотя все столбцы имеют тип данных «строка», у...

Jabernet / 11 апреля 2019

0 голосов

1 ответ

Какова максимальная глубина, допустимая в случайном лесу? Я использую Spark ML

Я использую Spark ML. Нужно знать максимально допустимую глубину? Случайный Лес Максимальный лимит...

style / 11 апреля 2019

0 голосов

0 ответов

Pyspark и Cassandra - извлечение данных в RDD как поля из поля карты

У меня есть таблица с полем карты с данными, которые из Кассандры выглядят следующим образом,...

HMan06 / 11 апреля 2019

0 голосов

0 ответов

Спарк статистическая функция для кумулятивного PDF стандартного Гаусса?

С pyspark, есть ли кумулятивная функция нормального распределения?Я пишу UDF, чтобы перейти к scipy...

MrCartoonology / 11 апреля 2019

0 голосов

1 ответ

Преобразование Pyspark из столбца вектора в тип doubleType

У меня есть столбец векторного типа с одним значением в каждом векторе.Я хочу получить только это...

Cards14 / 10 апреля 2019

2 голосов

2 ответов

Объединить несколько столбцов из одного фрейма данных в один столбец из другого без операции множественного объединения в pyspark

Я пытаюсь сопоставить несколько столбцов из одного фрейма данных (df) с многоязычным словарем...

user1848018 / 10 апреля 2019