Вопросы с тегом pyspark

0 голосов

1 ответ

Проблема при применении агрегатных функций, таких как count, sum для столбцов, имеющих нулевые значения в PySpark

Sreenath Chothar / 18 сентября 2018

0 голосов

1 ответ

Spark читать паркет с пользовательской схемой

Я пытаюсь импортировать данные в формате паркета с пользовательской схемой, но он возвращает:...

user9176398 / 18 сентября 2018

0 голосов

1 ответ

PySpark MongoDB :: java.lang.NoClassDefFoundError: com / mongodb / client / model / Collation

Я пытался подключиться к MongoDB Atlas из PySpark, и у меня возникла следующая проблема: from...

Andres / 18 сентября 2018

0 голосов

3 ответов

Сгенерировать пустой спарк DF предоставил список с именами столбцов

Я не уверен, что это правильный вопрос, но я хотел бы спросить. Есть ли способ, которым я могу...

darkmatter / 18 сентября 2018

0 голосов

0 ответов

Функции секвенирования PySpark

У меня проблемы с пониманием типов возвращаемых искровых файлов. У меня есть два pyspark dataframes

Matúš Košík / 18 сентября 2018

0 голосов

1 ответ

как импортировать файл Excel в pyspark Databricks

Я пытаюсь импортировать мой файл Excel в PySpark на компьютере Azure-DataBricks, который мне нужно...

Shail / 18 сентября 2018

0 голосов

1 ответ

Проблема загрузки CSV в DataFrame в PySpark

Я пытаюсь собрать кучу CSV-файлов в один и вывести их на S3 в формате ORC, используя задание ETL в...

chemdog95 / 18 сентября 2018

0 голосов

0 ответов

Как преобразовать однострочное JSON в многострочное с помощью команды sed

Рассмотрим следующий фрагмент JSON: [{ "first": "rand_data",...

vinod kumar / 18 сентября 2018

0 голосов

1 ответ

Разница во времени Pyspark, основанная на значениях столбцов

У меня есть фрейм данных pyspark с четырьмя столбцами отметок времени (clock_in, clock_out, sign_in...

Tim / 18 сентября 2018

0 голосов

0 ответов

Приносит ли многопроцессорность / пул время обработки Pyspark?

Мы пытаемся оценить, действительно ли многопроцессорная обработка действительно полезна в среде...

Anand Vasudevan / 18 сентября 2018

0 голосов

1 ответ

Как очистить rdd или DataFrame с помощью PySpark (удалить нули и дубликаты)

Я новичок в Python / PySpark, и у меня возникают проблемы с очисткой данных перед использованием их...

lauvdb / 18 сентября 2018

0 голосов

2 ответов

Как я могу передавать данные из темы Google PubSub в PySpark (в Google Cloud)

У меня есть поток данных в тему в Google PubSub.Я вижу эти данные, используя простой код Python: ..

Rahul Shetty / 17 сентября 2018

0 голосов

1 ответ

читать текстовый файл в pyspark2

Я пытаюсь прочитать текстовый файл в spark 2.3, используя python, но я получаю эту ошибку.Это...

abhishek anand / 17 сентября 2018

0 голосов

2 ответов

Как отлаживать на VS Code?Ошибка «Неверный дескриптор файла»

Это выглядит просто, но мне очень трудно отлаживать py-файл с использованием VS Code + Anaconda:...

Luiz Fernandes / 17 сентября 2018

0 голосов

1 ответ

Многосетевой искровой кластер

Я работаю над настройкой кластера Spark в многосетевой сети и столкнулся с некоторыми проблемами.Я...

Pumices / 17 сентября 2018

0 голосов

0 ответов

эффективно объединить несколько фреймов данных в Pyspark

У меня есть несколько фреймов данных одной и той же схемы в корзине S3, и мне необходимо объединить...

newleaf / 17 сентября 2018

0 голосов

0 ответов

Преобразование DataFrame в PySpark

Я получил данные из файла JSON, и у меня есть такая структура: DataFrame[CodLic: string, Fecha:...

Andres / 17 сентября 2018

0 голосов

1 ответ

Тест пустого столбца Datatframe в python spark

У меня есть два разных кадра данных: Structure DF1: A|B|C||E Structure DF2: A|B||D|E Я хочу создать...

icou / 17 сентября 2018

0 голосов

1 ответ

Использование модели keras в функции лямбда-карты pyspark

Я хочу использовать модель для прогнозирования оценок в лямбда-функции карты в PySpark. def...

yanachen / 17 сентября 2018

0 голосов

1 ответ

Как решить "не могу создать множественную ошибку Sparkcontext"?

У меня есть два файла. У меня есть файл, в котором я создаю sparkcontext. create_spark.py Код такой...

Atif / 17 сентября 2018

0 голосов

0 ответов

Как передать зависимые JAR-файлы в EMR Cluster при создании с использованием скрипта Python

Ниже код прекрасно работает и генерирует JSON по пути локальной файловой системы кластера EMR...

Sri / 17 сентября 2018

0 голосов

0 ответов

pyspark не работает, так как время сеансов истекло

У нас установлена anaconda для python3, доступ к которой можно получить через jupyterhub. Мы...

Rajesh Reddy B / 17 сентября 2018

0 голосов

1 ответ

Как загрузить модель Kmeans в Pyspark? Я получаю сообщение об ошибке при загрузке

Я пытаюсь загрузить модель Kmeans, которую я сохранил ранее, используя библиотеку pyspark.ml

Tushar Agarwal / 17 сентября 2018

0 голосов

0 ответов

Как прочитать CSV-файл с полем, содержащим несколько строк в Pyspark

Я хочу прочитать CSV-файл, в котором одно поле содержит многострочную запись, поэтому всякий раз,...

Karan Agarwal / 17 сентября 2018

0 голосов

0 ответов

Объедините объекты JSON, содержащиеся в одном файле, в один файл JSON, используя Pyspark

У меня есть огромный файл размером около 20 ГБ, который содержит объекты JSON, как показано ниже:...

Sains / 17 сентября 2018