Вопросы с тегом pyspark - PullRequest

Вопросы с тегом pyspark

0 голосов
0 ответов

У меня проблема при преобразовании DataFrame в RDD.Кадр данных изначально создается из файла CSV:...

ed2412 / 12 июня 2018
0 голосов
1 ответ

У меня есть кадр данных, который выглядит следующим образом: #...

Tibberzz / 12 июня 2018
0 голосов
1 ответ

Я ищу работу Google DataProc с GCS.Я использую pyspark dataproc.Данные считываются и записываются в...

MANISH ZOPE / 12 июня 2018
0 голосов
0 ответов

Вот мой код: from pysparkling import H2OConf #commenting this line makes it work import logging...

Tiberiu / 12 июня 2018
0 голосов
1 ответ

Можно ли как-то сказать главному узлу не назначать больше задач определенному рабочему узлу в...

sam93 / 12 июня 2018
0 голосов
1 ответ

У меня есть набор переменных, которые это отметка времени и сеанс.Как бы я сделал индикатор нового...

Micah Pearce / 12 июня 2018
0 голосов
1 ответ

У меня большой набор данных из 5 миллионов элементов, состоящий из их идентификатора, стоимости и т

Aman / 11 июня 2018
0 голосов
1 ответ

У меня есть столбец, который представляет собой список списков ix, и другой столбец, который...

Demetri Pananos / 11 июня 2018
0 голосов
0 ответов

Я проверил, что поле метки имеет только 2 возможных значения, выполнив команду SELECT для него.но...

sparkly / 11 июня 2018
0 голосов
0 ответов

Я сгенерировал следующий синтаксис Python: Создать новую модель CountVectorizer без стоп-слов cv =...

lpt / 11 июня 2018
0 голосов
1 ответ

У меня есть около 15 миллионов строк в DataFrame, которые мне нужно проанализировать.То, что я...

HMan06 / 11 июня 2018
0 голосов
0 ответов

У меня есть Dstream от kafka, я хочу выбрать из него столбцы.Ниже приведен код, который я реализую,...

Gagan / 11 июня 2018
0 голосов
0 ответов

Есть ли способ прогнозирования с использованием взвешенной скользящей средней в Pyspark?...

pissall / 11 июня 2018
0 голосов
1 ответ

Я хочу знать, как df.describe() и df.summary() реализованы Как и в https://spark.apache

cqcn1991 / 11 июня 2018
0 голосов
1 ответ

У меня есть фрейм данных, подобный следующему: df = spark.createDataFrame([(0,...

user2805885 / 11 июня 2018
0 голосов
2 ответов

Используя from pyspark.sql import functions as f и методы f.agg и f.collect_set Я создал столбец...

gilgamash / 11 июня 2018
0 голосов
0 ответов

Я разработал код pyspark, который состоит из нескольких этапов, таких как чтение данных из таблицы...

Shashank / 11 июня 2018
0 голосов
1 ответ

Логистическая регрессия PySpark принимает параметр elasticNetParam.Если я установлю этот параметр,...

Clock Slave / 11 июня 2018
0 голосов
2 ответов

Я пытаюсь использовать combineByKey, чтобы найти медиану для ключа для моего назначения...

Data Science Beginner / 11 июня 2018
0 голосов
1 ответ

Например, если я использую z.show () для вывода таблицы напрямую %pyspark df = spark

cqcn1991 / 10 июня 2018
0 голосов
0 ответов

У меня есть конвейер с тем же входом (кэшированный фрейм данных), я меняю только один этап каждый...

sparkly / 10 июня 2018
0 голосов
0 ответов

В Microsoft Azure мы можем создать кластер Spark в Azure HDInsight и создать кластер Hbase в Azure...

user2575502 / 10 июня 2018
0 голосов
0 ответов

Я пытаюсь записать фрейм данных pyspark в файл csv, но проблема, с которой я здесь сталкиваюсь,...

Jack / 10 июня 2018
0 голосов
1 ответ

У меня есть кадр данных, как показано ниже в pyspark. +-----+---+---+----+ |tests|val|asd|cnty|...

Question_bank / 10 июня 2018
0 голосов
1 ответ

У меня был вопрос, связанный с функцией repartitionBy() pyspark, который я первоначально разместил...

seth127 / 09 июня 2018
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...