Вопросы с тегом pyspark

1 голос

2 ответов

Разделить текст в кадре данных и проверить, содержит ли подстрока

Итак, я хочу проверить, содержит ли мой текст слово «ребенок», а не любое другое слово, содержащее...

Maria Nazari / 15 мая 2019

0 голосов

0 ответов

Kafka искра интеграции

Я создаю одно приложение, в котором я получу потоковые данные (csv) из kafka и запишу их в hdfs....

pikas / 15 мая 2019

6 голосов

4 ответов

Как применить модель большого питона к pyspark-dataframe?

У меня есть: Большой кадр данных (формат паркета, 100 000 000 строк, размер 4,5 ТБ), содержащий...

Ivan Menshikh / 15 мая 2019

0 голосов

1 ответ

Невозможно сохранить большой фрейм данных искры в качестве маринада

У меня большой фрейм данных (чуть больше 20G), я пытаюсь сохранить его как объект pickle для...

Vishal / 15 мая 2019

0 голосов

1 ответ

Динамические столбцы в предложении where при чтении файлов паркета в pyspark

У меня есть файлы паркета, и я хочу прочитать их на основе динамических столбцов, поэтому возьмем...

Vishvanath / 15 мая 2019

0 голосов

0 ответов

Динамическое создание нескольких столбцов с использованием цикла в фрейме данных pyspark

У меня есть требование, при котором я должен динамически генерировать несколько столбцов в pyspark....

user11490741 / 15 мая 2019

0 голосов

0 ответов

Конфигурация Pyspark для обработки нескольких файлов GZIP размером более 10 ГБ (размер отдельного файла ~ 500 МБ)

Я новичок в pyspark. Я пытаюсь обработать 10 ГБ сжатых данных. Папка содержит несколько файлов GZIP...

Roger Ganga Sundararaj / 15 мая 2019

0 голосов

1 ответ

Pyspark - получение значений из массива с диапазоном минимальных и максимальных значений

Я пытаюсь написать запрос в PySpark, который получит правильное значение из массива. Например, у...

Jon Lunn / 15 мая 2019

0 голосов

0 ответов

Запуск различных кодов искры из командной строки

Итак, я следую за Apache spark, используя руководство по Python от udemy, где он запускает искровые...

Sayan Basu / 15 мая 2019

0 голосов

0 ответов

запустить summary () на большом фрейме данных

У меня есть несколько паркетных файлов, каждый из которых содержит приблизительно 3 миллиона строк...

Tokyo / 15 мая 2019

0 голосов

1 ответ

Метка времени преобразования Spark Scala

У меня есть UDF в pyspark, как показано ниже для преобразования строки в метку времени...

syv / 15 мая 2019

0 голосов

1 ответ

pyspark dataframe сохранить в таблице улья не удается найти

мы установили наш кластер через cdh6.2.используйте pyspark, создайте фрейм данных, затем сохраните...

hangkongwang / 15 мая 2019

1 голос

0 ответов

Хеширующий кодер в спарк 1.6 для высоких кардинальных категориальных переменных

Люди У меня есть огромный набор данных, который содержит категориальную переменную высокой мощности...

prateek / 15 мая 2019

0 голосов

0 ответов

Pyspark toDF () Бросок IllegalStateException Использование collect ()

Я использую BeautifulSoup и Pyspark для сканирования в Интернете.У меня есть тестовый CSV-файл,...

Anton Gustafsson / 15 мая 2019

0 голосов

1 ответ

Как разбить 6-значное число на один столбец с 4 цифрами и один столбец с 2 цифрами (например: 201452 в 2014 и 52)

Как разделить 6-значное число на один столбец с 4 цифрами и один столбец с 2 цифрами (например, с...

NimR / 15 мая 2019

0 голосов

1 ответ

Лучший способ прочитать несколько файлов CSV

У меня есть 200 CSV-файлов на основе дат. Из которых мне нужны данные только из 50 файлов. Должен...

Kannan / 15 мая 2019

0 голосов

0 ответов

Проблемы с преобразованием файлов CSV в Parquet с использованием PySpark: недостаточно памяти

Я всегда получаю ошибки при попытке преобразовать мои данные CSV в паркет. Я предполагаю, потому...

Jiew Meng / 15 мая 2019

0 голосов

0 ответов

как конвертировать тип документа в спарк RDD

Я пытаюсь преобразовать тип документа в spark RDD, но я не знаю, как это сделать.По сути, я пытаюсь...

Nagesh Singh Chauhan / 15 мая 2019

0 голосов

1 ответ

Как отфильтровать плохие или поврежденные строки из фрейма искровых данных после приведения

df1 +-------+-------+-----+ | ID | Score| hits| +-------+-------+-----+ | 01| 100| Null| | 02|...

Chandu / 15 мая 2019

0 голосов

1 ответ

Записать фрейм данных Pyspark в s3

У меня есть фрейм данных pyspark, который я хочу записать в s3. Мой фрейм данных выглядит как - id...

Pallavi Verma / 15 мая 2019

0 голосов

3 ответов

Объединенный вывод Spark в один файл

Мне интересно, есть ли способ объединить конечный результат в один файл при использовании Spark?...

Reza Karami / 15 мая 2019

0 голосов

1 ответ

Как использовать pyspark для исправления искаженного JSON перед его чтением в информационный фрейм

Я пытаюсь прочитать дамп MongoDB в фрейм данных.Дамп в формате JSON, за исключением элемента Date

FAA / 14 мая 2019

0 голосов

1 ответ

Существуют ли коды для расчета среднего значения столбца с использованием pyspark?

Я хочу рассчитать среднее значение для каждого города (группового города), используя RDD и данные....

Gyu-lim Shim / 14 мая 2019

1 голос

1 ответ

Как исправить ошибку «Выход из контейнера с ненулевым кодом завершения 143» в pyspark

Я вычисляю косинусное сходство между всеми строками фрейма данных с помощью следующего кода: from...

confused_pandas / 14 мая 2019

0 голосов

0 ответов

Запуск PySpark из Scala / Java Spark

Я обрабатываю свои данные с помощью Scala Spark и хочу использовать pySpark / python для дальнейшей...

user2895589 / 14 мая 2019