Вопросы с тегом апаш-искровой SQL

0 голосов

1 ответ

Как прочитать данные за последние 3 дня из папки с паркетными файлами?

У меня есть папка с множеством паркетных файлов, имена которых следующие:...

Markus / 15 мая 2018

0 голосов

1 ответ

Указание схемы CSV в Apache Spark

Я получаю сообщение об ошибке в простом случае: Я хочу прочитать несколько CSV, все имеют...

david nadal / 15 мая 2018

0 голосов

1 ответ

Разделение данных столбца по разделителю

У меня есть фрейм данных Spark (1.4), где данные в столбце похожи на "1-2-3-4-5-6-7-8-9-10-11-12".Я...

Rajdip / 15 мая 2018

0 голосов

1 ответ

Объект PipelinedRDD не имеет атрибута _get_object_id

У меня возникла проблема при попытке воспроизвести пример, который я видел здесь - https://docs

Will / 15 мая 2018

0 голосов

0 ответов

Ошибка при использовании загрузки pyspark для чтения данных

Я пытаюсь загрузить файл, используя Pyspark, как показано ниже from pyspark.sql import SparkSession...

fraihat / 15 мая 2018

0 голосов

2 ответов

Оптимизировать фрагмент кода, который использует действие карты

Следующий фрагмент кода занимает много времени на 4 ГБ необработанных данных в кластере: df

Markus / 15 мая 2018

0 голосов

2 ответов

PySpark: конвертировать RDD в столбец в кадре данных

У меня есть искровой фрейм данных, с помощью которого я вычисляю евклидово расстояние между строкой...

Clock Slave / 15 мая 2018

0 голосов

0 ответов

Странное поведение в CSV-парсере Spark 2, когда включена опция multiLine

При создании DataFrame из файла CSV, если включена опция multiLine, некоторые столбцы файла...

Fernando Lemos / 15 мая 2018

0 голосов

1 ответ

Вызов AnalysisExUDUDF () внутри withColumn ()

Этим утром мы обновили версию Spark с 2.2.0 до 2.3.0, и я столкнулся с довольно странной проблемой....

Danila Zharenkov / 15 мая 2018

0 голосов

1 ответ

Pyspark - время раунда, представленное как целое число с точностью до четверти часа (15 минут)

Я работаю над датафреймом в Pyspark. Один столбец состоит из целочисленного значения,...

Valentina / 15 мая 2018

0 голосов

0 ответов

Как сохранить результат из фрейма данных в таблице кустов с разными именами на каждой итерации, используя pyspark

У меня есть фрейм данных, в котором я сохраняю результат в таблице кустов с помощью команды...

aman kesharwani / 15 мая 2018

0 голосов

1 ответ

Матрица подобия с использованием искрового фрейма данных

Для входа Dataframe намерение состоит в том, чтобы генерировать только половину само декартового...

javadba / 15 мая 2018

0 голосов

1 ответ

Spark: разделение пробела / разбора плюс строки в кавычках

У меня есть записи, подобные приведенным ниже. Разделенные пробелами / разделенные: 2015-07-22 5555...

1pluszara / 14 мая 2018

0 голосов

0 ответов

Как читать таблицу улья с вкладышем в Spark 2.x

Здравствуйте, как мы можем прочитать эту таблицу улья с переплетом в Spark 2.x.Даже в примере с...

Hemant / 14 мая 2018

0 голосов

1 ответ

Как объединить последовательные повторяющиеся строки в pyspark

У меня есть датафрейм в формате ниже Col-1Col-2 a d1 a d2 x d3 a d4 f d5 a d6 a d7 Я хочу...

vish / 14 мая 2018

0 голосов

1 ответ

Подсчет нескольких счетчиков в одном выражении

У меня есть следующий код, написанный на Spark с использованием Scala и SQL API: sourceData

datahack / 14 мая 2018

0 голосов

2 ответов

Как преобразовать строку в дату в столбце с разными форматами даты

У меня есть столбец в моем Spark DataFrame, open_date со значениями строкового типа, как показано...

Aj here / 14 мая 2018

0 голосов

1 ответ

Как предотвратить предикат pushdown?

Недавно я работал с Spark с источником данных JDBC.Рассмотрим следующий фрагмент: val df = spark

T. Gawęda / 14 мая 2018

0 голосов

1 ответ

DataFrame Spark не найден в классе Java

Я кодирую класс Java, используя Spark.У меня есть эта ошибка: «DataFrame не может быть разрешен в...

Danny / 14 мая 2018

0 голосов

0 ответов

Что-нибудь в Spark SQL похоже на CONDITIONAL_CHANGE_EVENT?

Vertica имеет аналитическую функцию CONDITIONAL_CHANGE_EVENT, которая выполняет что-то вроде...

Manjesh / 14 мая 2018

0 голосов

1 ответ

Сглаживание рекурсивных вложенных данных в Spark SQL

У меня есть данные JSON, которые содержат несколько вложений, как показано ниже. Глубина вложения...

user400058 / 14 мая 2018

0 голосов

1 ответ

Создать новый столбец с групповой меткой на основе условия, проверенного в другом столбце

Я хочу создать групповые метки на основе условия, проверенного в другом столбце.В частности, если...

ACommodus / 14 мая 2018

0 голосов

1 ответ

Операция сохранения как таблицы завершается неудачно, когда элемент типа структуры имеет поля со специальным символом для SPARK

У меня ниже XML, который я пытаюсь прочитать через SPARK XML: <revolt>...

abhijeet bedagkar / 14 мая 2018

0 голосов

1 ответ

.withColumn не дает исходные столбцы кадра данных, а только недавно добавленный столбец

val withOneDayts=userDataFrame.join(articleDataFrame...

NamrataK / 14 мая 2018

0 голосов

2 ответов

Pyspark SQL: случай использования операторов

У меня есть фрейм данных, который выглядит следующим образом >>> df_w_cluster

Clock Slave / 14 мая 2018