Вопросы с тегом pyspark

3 голосов

1 ответ

Как обнаружить дубликаты в большом файле JSON, используя PySpark HashPartitioner

У меня большой файл json с более чем 20 ГБ метаданных со структурой json. Он содержит простые...

John Lexus / 25 апреля 2019

0 голосов

2 ответов

В чем разница между режимом клиента и режимом кластера в Spark?

У меня есть сомнения, чтобы понять, что такое режим клиента и режим кластера.Давайте рассмотрим...

moudi / 25 апреля 2019

0 голосов

0 ответов

Динамический фрейм, написание дополнительных столбцов

У меня есть склеенная задача, которая читает данные из S3, выполняет пару SQL-запросов к данным и...

Eumcoz / 25 апреля 2019

0 голосов

0 ответов

Как создать Spark Data Frame из Pandas Data Frame в Spark Magic?

В моем ноутбуке Jupyter настроена среда Spark Magic. Моя цель - прочитать файл Excel и...

Pragya / 25 апреля 2019

0 голосов

0 ответов

можем ли мы запускать искровые задания (на главном компьютере) из приложения фляги (внутри докера)

У меня есть задача поместить приложение фляги в докер-контейнер, после чего в зависимости от...

bugsbunny / 25 апреля 2019

0 голосов

1 ответ

PySpark: как обновить вложенные столбцы?

StackOverflow имеет несколько ответов о том, как обновить вложенные столбцы в кадре данных.Однако...

AntonyP / 25 апреля 2019

0 голосов

1 ответ

установка koalas pip завершается неудачно из-за зависимости pyarrow

Я пытался установить новый пакет Databricks koalas, используя рекомендованный pip install koalas,...

Frank B. / 25 апреля 2019

0 голосов

1 ответ

Невозможно создать локальный каталог в EMR пользователем 'livy'

Я отправляю задание pyspark в EMR кластер из AWS Step Function через apache livy .Задание pyspark...

Parijat Bose / 25 апреля 2019

0 голосов

0 ответов

Как получить исходную ошибку Python из ошибки Py4JJavaError, возникшей в пользовательской функции PySpark

Я использую пользовательские функции PySpark для выполнения кода на работнике Spark. Если...

eega / 25 апреля 2019

0 голосов

1 ответ

Как конвертировать в Pyspark столбец из 10 миллионов записей в столбцы из 20000 записей?

Как вы можете видеть на изображении, у нас есть фрейм данных с одним столбцом, который содержит 10...

Marc Xavier / 25 апреля 2019

0 голосов

0 ответов

Ошибка: данные должны быть СДР списка строк, но мои входные данные кажутся правильными (для обучения word2vec pyspark)

Я пытаюсь обучить модель word2vec, используя реализацию spark.Я следую учебному пособию по...

penatbater / 25 апреля 2019

1 голос

1 ответ

создать фрейм данных pyspark на основе условия и списка значений

У меня есть значение в переменной - ID как 1 и список из десяти значений, скажем LIST1 = [1,2,3,4,5...

pyds_learner / 25 апреля 2019

0 голосов

1 ответ

Pyspark - ошибка при сохранении данных в таблицу Hive «неразрешенный оператор« InsertIntoTable HiveTableRelation »»

Я использую следующее: библиотека pyspark, версия 2.3.1 python, версия 2.7.1 hadoop, версия 2.7.3...

Juraj / 25 апреля 2019

0 голосов

0 ответов

Как эффективно использовать join (), чтобы сократить время в тех случаях, когда столбцов много?

У меня есть скрипт, который melts() различен dataframes, а затем join их. Он выполняет equi join....

Aviral Srivastava / 25 апреля 2019

0 голосов

0 ответов

Как обрабатывать исключения в pyspark, когда данные имеют неправильный порядок?

Я создаю небольшой RDD из неупорядоченных данных.Он не имеет одинакового количества столбцов в...

jodu / 25 апреля 2019

0 голосов

1 ответ

Spark: Разница между: sqlContext.read.load (path = '', format = '') и sqlContext.read.format (). Load ()

Я пытался прочитать текстовый файл с разделением юникодом в Spark2.2. Изначально использовалась...

Zaid Rahman / 25 апреля 2019

0 голосов

2 ответов

Преобразование кода API на основе RDD в код API на основе Dataframe в pyspark

Код API на основе RDI для чтения CSV-файла и преобразования его в кортежи: # load data movie_rating...

pyds_learner / 25 апреля 2019

1 голос

0 ответов

Я хочу объединить два DataFrames с заполнением NaN в pyspark?

Я хочу объединить два кадра данных в pyspark следующим образом: df1 выглядит так:...

Rishabh Ojha / 25 апреля 2019

0 голосов

0 ответов

Как установить рейтинги в Spark ALSModel

Я использую искровую ALS для обучения моделей с неявной обратной связью. Но я сбиваю с толку, как...

HeHez / 25 апреля 2019

0 голосов

1 ответ

Spark Streaming awaitTermination в ноутбуке Jupyter

Я следую вместе с кодом в Apache Spark Definitive Guide.Я столкнулся с проблемой, когда следующий...

Keerikkattu Chellappan / 25 апреля 2019

2 голосов

1 ответ

Получает ли Spark выгоду от `sortBy` в постоянной таблице?

Spark v2.4 no Hive Преимущество Spark от bucketBy в том смысле, что он знает, что DataFrame имеет...

colinfang / 25 апреля 2019

0 голосов

1 ответ

Как заполнить нулевые значения агрегатом группы с помощью PySpark

У меня есть простой набор данных с некоторыми значениями NULL: Age,Title 10,Mr 20,Mr null,Mr 1,...

Rodney / 25 апреля 2019

0 голосов

0 ответов

Spark Streaming не срабатывает

Я на ноутбуке jupyter и хочу смоделировать сервер для отправки виртуальных данных в приложении...

Romain Jouin / 25 апреля 2019

0 голосов

0 ответов

pyspark на локальном кластере не может вызвать любую команду

Я следовал этому учебнику , чтобы установить pyspark на мой компьютер с Windows, чтобы я мог...

SAFEX / 24 апреля 2019

0 голосов

1 ответ

Как получить SparkSession для поиска добавленных файлов Python

После запуска pip install BigDL==0.8.0, запуск from bigdl.util.common import * с python завершен...

Clay / 24 апреля 2019