Вопросы с тегом pyspark

1 голос

1 ответ

Используйте PANDAS вместо Spark

Справочная информация. Я использую ноутбук Zeppelin для аналитики. Цель состоит в том, чтобы...

bjsarma / 20 октября 2019

1 голос

1 ответ

Путаница лямбда-функции Rdd вокруг строк против столбцов

У меня есть искровой RDD (полный код ниже), и я немного запутался. Учитывая входные данные: 385 | 1...

kikee1222 / 20 октября 2019

2 голосов

1 ответ

Как найти номер из текста

Это небольшой пример столбца pyspark (String) в моем фрейме данных. column | new_column...

daddou06 / 20 октября 2019

1 голос

1 ответ

Разбить массив строк в DataFrame на свои собственные столбцы

У меня есть такой фрейм данных: df.show () +-----+ |col1 | +-----+ |[a,b]| |[c,d]| +-----+ Как...

Gadam / 20 октября 2019

0 голосов

0 ответов

Как прочитать CSV с разделителями-запятыми, который имеет столбцы со встроенными запятыми в PySpark?

Я пытаюсь прочитать CSV из корзины AWS S3, используя pyspark. Поскольку в моем CSV есть столбец со...

ic2019 / 20 октября 2019

0 голосов

0 ответов

Как подсчитать количество слов в строке с помощью Python PySpark MapReduce

Я пытаюсь реализовать подсчет слов, используя MapReduce PySpark. Я хотел бы посчитать, сколько раз...

jcanary / 20 октября 2019

0 голосов

2 ответов

получить количество разделов в pyspark

Я выбираю все из таблицы и создаю из нее фрейм данных (df), используя Pyspark. Который разделен...

user3520791 / 19 октября 2019

2 голосов

1 ответ

Подсчет всех возможных пар слов с помощью pyspark

У меня есть текстовый документ. Мне нужно найти возможное количество повторяющихся пар слов в общем...

sudeep / 19 октября 2019

0 голосов

1 ответ

pyspark pandas_udf неправильно работает после официального примера

Я следовал официальным документам (версия pyspark = 2.4.4): df = spark.createDataFrame([(1,...

littlely / 19 октября 2019

2 голосов

2 ответов

Как создать столбцы Date и Hour из столбца Seconds, используя SQL

У меня есть столбец с именем Time, в котором значения с плавающей запятой указывают время в...

MilkyWay007 / 19 октября 2019

0 голосов

0 ответов

Возможно ли иметь два обновленияtatebykey () в одном приложении потоковой передачи с поддержкой spark?

Я новичок в потоковом воспроизведении и просто знаю функцию updateStatebyKey(). Я хочу спросить,...

Henry Gunawan / 19 октября 2019

0 голосов

0 ответов

Как использовать MaxabsScaler для значения tfidf в функции конвейера и другую функцию, которая будет использоваться в логистической регрессии

Как использовать функцию maxabsScaler для функции tfidf, которая поступает из конвейера, и другую...

user12104942 / 19 октября 2019

0 голосов

2 ответов

Манипуляция списком Python с добавочными дополнениями

У меня есть список Python (версия 3.6 в AWS Glue с PySpark): ['id',...

user1983682 / 19 октября 2019

1 голос

1 ответ

Ошибка скалярной UDF панд, IllegalArgumentException

Прежде всего, я прошу прощения, если моя проблема проста. Я провел много времени, исследуя это. Я...

slava-kohut / 19 октября 2019

0 голосов

1 ответ

Читать только определенные строки файлов .parquet, соответствующие критериям?

Я работаю против файловой системы, заполненной файлами .parquet. Один из столбцов, id, однозначно...

Assaf Muller / 18 октября 2019

1 голос

2 ответов

Pyspark dataframe Столбец Подстрока на основе значения индекса конкретного символа

Эксперты, у меня есть простое требование, но я не могу найти функцию для достижения цели. Я...

Sidd / 18 октября 2019

0 голосов

0 ответов

Как отправить данные из рабочего узла в озеро данных из функции Pandas_UDF?

У меня есть Pandas_UDF, и я использую PySpark. Теперь, насколько мне известно, когда я использую...

I. A / 18 октября 2019

1 голос

1 ответ

PySpark Объединить данные и считать значения

У меня есть два разных кадра данных, и я хочу узнать количество пересечений между m столбцами из...

rajat kabra / 18 октября 2019

0 голосов

1 ответ

список поддерживаемых функций SQL внутри sqlContext.sql («запрос»): наличие, match_recognize.etc

Мне интересно, будет ли sqlContext.sql("query") поддерживать все функции SQL,...

user1503 / 18 октября 2019

0 голосов

1 ответ

Tweepy Streaming Socket не может отправить предварительно обработанный текст

У меня есть две программы, которые подключаются через сокеты. Одним из них является tweepy...

NKK / 18 октября 2019

0 голосов

0 ответов

Pyspark: как извлечь значимость читабельной функции из случайного леса spark-ml

Из этого вопроса pyspark-mllib-random-forest-feature-importances Я вижу, что есть метод с именем...

paolof89 / 18 октября 2019

0 голосов

1 ответ

pyspark извлекает конкретное значение из переменной

У меня есть скрипт ниже. Я немного застрял с этим конкретным фрагментом: datex = datetime.datetime

kikee1222 / 18 октября 2019

2 голосов

1 ответ

Объедините несколько информационных фреймов в один в Pyspark [non pandas df]

Я получу кадры данных, сгенерированные один за другим в процессе. Я должен объединить их в один....

earl / 18 октября 2019

0 голосов

1 ответ

Удалить автозагрузку, чтобы изменить уровень журнала Spark

Я запускаю скрипты Python (и тесты) с PySpark и хочу удалить ненужную информацию из журналов....

VictorGalisson / 18 октября 2019

0 голосов

1 ответ

Нужен список столбцов, значение которых больше 0 в pyspark

У меня есть данные ниже: >>> dfStd1.show()...

Siddhesh Kalgaonkar / 18 октября 2019