Вопросы с тегом pyspark

0 голосов

0 ответов

Pyspark 2.2.0, преобразующий Dataframe в RDD, дает другой результат

У меня проблема при преобразовании DataFrame в RDD.Кадр данных изначально создается из файла CSV:...

ed2412 / 12 июня 2018

0 голосов

1 ответ

Pyspark тающие ноль колонны

У меня есть кадр данных, который выглядит следующим образом: #...

Tibberzz / 12 июня 2018

0 голосов

1 ответ

Как dataproc работает с облачным хранилищем Google?

Я ищу работу Google DataProc с GCS.Я использую pyspark dataproc.Данные считываются и записываются в...

MANISH ZOPE / 12 июня 2018

0 голосов

0 ответов

pysparkling H2OConf вмешивается в мой журнал приложений

Вот мой код: from pysparkling import H2OConf #commenting this line makes it work import logging...

Tiberiu / 12 июня 2018

0 голосов

1 ответ

Удаление подчиненных узлов при исполнении в Spark

Можно ли как-то сказать главному узлу не назначать больше задач определенному рабочему узлу в...

sam93 / 12 июня 2018

0 голосов

1 ответ

Pyspark: как создать флаг в первый раз, когда видна переменная

У меня есть набор переменных, которые это отметка времени и сеанс.Как бы я сделал индикатор нового...

Micah Pearce / 12 июня 2018

0 голосов

1 ответ

Параллельная обработка в Писпарке

У меня большой набор данных из 5 миллионов элементов, состоящий из их идентификатора, стоимости и т

Aman / 11 июня 2018

0 голосов

1 ответ

Извлечение элементов из столбца списка

У меня есть столбец, который представляет собой список списков ix, и другой столбец, который...

Demetri Pananos / 11 июня 2018

0 голосов

0 ответов

Трубопровод искровой мл - 2 класса в помеченном поле, но искровая не может запустить биномиальную регрессию

Я проверил, что поле метки имеет только 2 возможных значения, выполнив команду SELECT для него.но...

sparkly / 11 июня 2018

0 голосов

0 ответов

печатать темы из LDA

Я сгенерировал следующий синтаксис Python: Создать новую модель CountVectorizer без стоп-слов cv =...

lpt / 11 июня 2018

0 голосов

1 ответ

Spark - группировка и подсчет по одинаковым строкам (Scala или Pyspark)

У меня есть около 15 миллионов строк в DataFrame, которые мне нужно проанализировать.То, что я...

HMan06 / 11 июня 2018

0 голосов

0 ответов

Pyspark: Dstream для выбора столбцов

У меня есть Dstream от kafka, я хочу выбрать из него столбцы.Ниже приведен код, который я реализую,...

Gagan / 11 июня 2018

0 голосов

0 ответов

Прогнозирование с использованием взвешенной скользящей средней в писпарке

Есть ли способ прогнозирования с использованием взвешенной скользящей средней в Pyspark?...

pissall / 11 июня 2018

0 голосов

1 ответ

Pyspark: как реализованы dataframe description () и summary ()

Я хочу знать, как df.describe() и df.summary() реализованы Как и в https://spark.apache

cqcn1991 / 11 июня 2018

0 голосов

1 ответ

создать новый фрейм данных, найдя в pyspark замененный идентификатор

У меня есть фрейм данных, подобный следующему: df = spark.createDataFrame([(0,...

user2805885 / 11 июня 2018

0 голосов

2 ответов

Выберите строку по значению в наборе после collect_set с помощью pyspark

Используя from pyspark.sql import functions as f и методы f.agg и f.collect_set Я создал столбец...

gilgamash / 11 июня 2018

0 голосов

0 ответов

Обработка ошибок в pyspark

Я разработал код pyspark, который состоит из нескольких этапов, таких как чтение данных из таблицы...

Shashank / 11 июня 2018

0 голосов

1 ответ

PySpark: логистическая регрессия упругая чистая регуляризация

Логистическая регрессия PySpark принимает параметр elasticNetParam.Если я установлю этот параметр,...

Clock Slave / 11 июня 2018

0 голосов

2 ответов

ненастоящий список в писпарке

Я пытаюсь использовать combineByKey, чтобы найти медиану для ключа для моего назначения...

Data Science Beginner / 11 июня 2018

0 голосов

1 ответ

Zeppelin: проблемное отображение таблицы при смешивании со строками

Например, если я использую z.show () для вывода таблицы напрямую %pyspark df = spark

cqcn1991 / 10 июня 2018

0 голосов

0 ответов

трубопровод spark ML дает разные значения для разных трасс

У меня есть конвейер с тем же входом (кэшированный фрейм данных), я меняю только один этап каждый...

sparkly / 10 июня 2018

0 голосов

0 ответов

Как сделать запрос и объединить данные CSV с данными Hbase в Spark Cluster в Azure

В Microsoft Azure мы можем создать кластер Spark в Azure HDInsight и создать кластер Hbase в Azure...

user2575502 / 10 июня 2018

0 голосов

0 ответов

Pyspark - запись данных в csv

Я пытаюсь записать фрейм данных pyspark в файл csv, но проблема, с которой я здесь сталкиваюсь,...

Jack / 10 июня 2018

0 голосов

1 ответ

Исключить пустые значения в столбце при использовании Windows разделить столбец в Pyspark

У меня есть кадр данных, как показано ниже в pyspark. +-----+---+---+----+ |tests|val|asd|cnty|...

Question_bank / 10 июня 2018

0 голосов

1 ответ

pyspark: эффективно разделите запись по тому же количеству разделов, что и исходная таблица

У меня был вопрос, связанный с функцией repartitionBy() pyspark, который я первоначально разместил...

seth127 / 09 июня 2018