Вопросы с тегом pyspark

0 голосов

0 ответов

Исправлена ошибка Py4JJavaError при попытке преобразовать pyspark df размером 1,7 lac в pandas df

> Py4JJavaError: An error occurred while calling o342.collectToPython. : > org.apache.spark

Nikita Rathi / 18 июня 2019

0 голосов

0 ответов

Одна горячая кодировка в PySpark

У меня есть фрейм данных (df), который состоит из 10K строк. Мой фрейм данных выглядит как - id...

Nikita Agarwal / 18 июня 2019

1 голос

2 ответов

pyspark textFileStreaming не может обнаружить текстовый файл, пока работает textFile

Объяснить мой вопрос иначе: Этот вопрос отличается от отмеченного. Во-первых, входной параметр уже...

Litchy / 18 июня 2019

0 голосов

0 ответов

прочитать буквенно-цифровое поле файла JSON без кавычек

Я хочу прочитать буквенно-цифровое поле файла json без кавычек: Я пытался преобразовать это поле в...

Bhawani Singh / 18 июня 2019

1 голос

0 ответов

Проблема с производительностью при преобразовании фрейма данных pyspark в JSON

Я хотел бы эффективно вставить содержимое фрейма pyspark в Redis. Попытка нескольких методов, но ни...

user2407164 / 18 июня 2019

1 голос

1 ответ

Программно выбрать столбцы из кадра данных с помощью udf

Я новичок в pyspark.Я пытаюсь извлечь столбцы данных, используя конфигурационный файл, который...

shijugm / 18 июня 2019

0 голосов

1 ответ

Цикл в кадрах данных Spark с использованием Python

Я хочу перебрать искровой фрейм данных, проверить, является ли условие, т. Е. Агрегированное...

mike_c84 / 18 июня 2019

0 голосов

1 ответ

В PySpark, как я могу заполнить новый столбец на основе поиска в другом DataFrame?

Впервые в Spark и PySpark я пытаюсь добавить поле / столбец в DataFrame путем поиска информации в...

Leo Saguisag / 18 июня 2019

0 голосов

1 ответ

запись pyspark df.write (паркет) на S3, но данные отсутствуют в половине столбцов

Использование EMR с 4 рабочими и 1 мастером метка выпуска: emr-5.24.0 Распределение Hadoop: Amazon...

Thom Rogers / 18 июня 2019

0 голосов

0 ответов

Spark Executors прекращается

Эксперты, я использую Spark 1.6.0 с Python (2.7) и сталкиваюсь с проблемой, когда моя работа...

Sidd / 18 июня 2019

0 голосов

0 ответов

Что означает «данные» в этом примере документации

Я подозреваю, что это довольно простой ответ, но я проклят, если смогу разобраться. Из документов...

Thom Rogers / 18 июня 2019

0 голосов

0 ответов

Как исправить исключение java.io.IOException: (строка 1) неверный символ между инкапсулированным токеном и разделителем в Spark Dataframe

У меня есть два искровых кадра данных, к которым я пытаюсь присоединиться. Я пытаюсь соединить два...

Chai Goyal / 18 июня 2019

0 голосов

1 ответ

Закодировать предложение как модель последовательности с помощью Spark

Я делаю классификацию текста и использую pyspark.ml.feature.Tokenizer для токенизации текста....

zs2020 / 17 июня 2019

2 голосов

2 ответов

Функция Spark Window последняя не нулевое значение

У нас есть база данных временных рядов для пользовательских событий, которая выглядит следующим...

Yuchen Zhong / 17 июня 2019

0 голосов

1 ответ

PySpark transform dataframe

Допустим, у меня есть следующие данные в кадре данных receipts: Id | Фрукты 1 | ['яблоко', 'банан']...

Sequinex / 17 июня 2019

0 голосов

1 ответ

Невозможно записать dataframe на cassandra с помощью pyspark

Я пытаюсь записать фрейм данных в cassandra, используя pyspark, но я получаю сообщение об ошибке:...

Umar / 17 июня 2019

0 голосов

1 ответ

Почему функция агрегирования pyspark.sql.functions.collect_list () добавляет локальное смещение часового пояса на дисплей?

Я запускаю следующий код в сеансе оболочки pyspark. Запуск collect_list () после groupBy изменяет...

ntipakos / 17 июня 2019

0 голосов

0 ответов

Использование spark sql jdbc источника данных params dbtable и partitionColumn для запроса диапазона первичных ключей

Я запрашиваю таблицу mysql со столбцом первичного ключа, используя spark. Мне не нужно читать всю...

Kundan Jha / 17 июня 2019

0 голосов

2 ответов

Заранее определите тип данных для фрейма данных при чтении JSON

У меня есть один файл json со 100 столбцами, и я хочу прочитать все столбцы вместе с...

Bhawani Singh / 17 июня 2019

0 голосов

1 ответ

Как сравнить 2 JSON-схемы, используя pyspark?

У меня есть 2 схемы JSON, как показано ниже - df1.printSchema () # root # |-- name: string...

jakrm / 17 июня 2019

1 голос

2 ответов

Как изменить значения столбца в соответствии с размером

У меня есть датафрейм df в настройке PySpark.Я хочу изменить столбец, скажем, он называется A, тип...

WorkBench / 17 июня 2019

1 голос

1 ответ

Преобразование столбца динамической даты в другой формат в фрейме данных pyspark

У меня есть датафрейм df = spark.createDataFrame([(1,2,3...

Amita Rawat / 17 июня 2019

0 голосов

1 ответ

Как разобрать столбец dataframe в столбец

У меня есть фрейм данных с двумя столбцами, содержащими данные json. Я хочу проанализировать эти...

Cool Triks / 17 июня 2019

2 голосов

0 ответов

Ошибка чтения паркета pyspark при чтении файлов паркета, хранящихся в hdfs: исключение блока отсутствует

У меня есть данные, сохраненные в формате паркета в формате hdf, которые я хочу обработать с...

Nadeem Mehraj / 17 июня 2019

3 голосов

1 ответ

Как экспортировать файл данных pandas в файл, чтобы его можно было открыть с помощью pandas dan pyspark?

Я прочитал документацию как pandas.read_csv, так и pyspark.sql.DataFrameReader.csv, и кажется, что...

fahadh4ilyas / 17 июня 2019