Вопросы с тегом апаш-искровой SQL

0 голосов

0 ответов

Spark-функция rangeBetween до выполнения условия

У меня есть набор данных в этом формате:...

Himanshu Yadav / 16 мая 2019

1 голос

1 ответ

Найти непрерывные данные в фрейме pyspark

marisbest2 / 16 мая 2019

0 голосов

0 ответов

Spark создает файлы в таблицах Hive с паркетной версией 1.6.0

Я хочу вставить данные в уже существующую многораздельную паркетную таблицу Hive с помощью Spark...

Nupur Bharati / 16 мая 2019

0 голосов

1 ответ

Я хочу рассчитать среднее значение искры sql с помощью Python?

показывает .count (), но неправильно .sum (), что мне делать? код: def meanTemperature(df,spark):...

David Echo / 16 мая 2019

0 голосов

0 ответов

Таблица улья с искровым доступом с помощью JsonSerde

У меня есть стол улья create table json_tab ( c1 string, c2 int, c3 array<struct<c4:string,...

Joha / 16 мая 2019

1 голос

2 ответов

Как извлечь числовую часть из строкового столбца в спарк?

Я новичок в разжигании и пытаюсь поиграть с данными, чтобы получить тренировку. Я использую блоки...

kasturi76 / 16 мая 2019

1 голос

1 ответ

Медианные и квантильные значения в Писпарке

В моем фрейме данных есть столбец возраста.Общее количество строк составляет около 77 миллиардов.Я...

Nikita Agarwal / 16 мая 2019

0 голосов

1 ответ

Сравнение всех строк в столбце со всеми другими строками в одном столбце (специальный запрос)

В этом запросе мне дан кадр данных со столбцом 5d евклидовых точек (хранится в виде массива двойных...

user132226 / 16 мая 2019

1 голос

1 ответ

Как заменить строковые значения в одном столбце фактическими значениями столбцов из других столбцов в том же кадре данных?

У меня есть несколько строковых значений в одном столбце, и я хотел бы заменить подстроки в этом...

Tiffany / 16 мая 2019

1 голос

2 ответов

UDF Spark не изменяет значение столбца с нуля на 0

Попытка заменить ноль на 0 в кадре данных, используя UDF ниже. Там, где я могу ошибаться, код...

Pavan_Obj / 15 мая 2019

0 голосов

1 ответ

Как привести тип строки данных на сегодняшний день в сплайновом SQL-соединении: to_date не работает, и приведение вызывает ошибку

Я соединяю две таблицы в красном смещении, используя pyspark. Условие соединения находится между...

Tejas / 15 мая 2019

0 голосов

0 ответов

Динамическое создание нескольких столбцов с использованием цикла в фрейме данных pyspark

У меня есть требование, при котором я должен динамически генерировать несколько столбцов в pyspark....

user11490741 / 15 мая 2019

0 голосов

1 ответ

Невозможно записать набор данных spark в базу данных с использованием jdbc

Мне нужно записать мой набор искровых данных в таблицу базы данных Oracle.Я использую метод записи...

CodeRunner / 15 мая 2019

0 голосов

0 ответов

Конфигурация Pyspark для обработки нескольких файлов GZIP размером более 10 ГБ (размер отдельного файла ~ 500 МБ)

Я новичок в pyspark. Я пытаюсь обработать 10 ГБ сжатых данных. Папка содержит несколько файлов GZIP...

Roger Ganga Sundararaj / 15 мая 2019

0 голосов

1 ответ

Метка времени преобразования Spark Scala

У меня есть UDF в pyspark, как показано ниже для преобразования строки в метку времени...

syv / 15 мая 2019

10 голосов

1 ответ

Spark Как получить количество ключей, измененных в двух JSONS в Scala?

У меня есть два кадра данных, для которых я пытаюсь найти разницу. 2 кадра данных содержат массивы...

user3407267 / 15 мая 2019

0 голосов

0 ответов

Внезапное изменение производительности приложения Spark Streaming через 3 часа

Приложение My Spark обрабатывает сообщения от Кафки и записывает их в Cassandra.Через 3 часа...

mmmbell / 15 мая 2019

0 голосов

1 ответ

Существуют ли коды для расчета среднего значения столбца с использованием pyspark?

Я хочу рассчитать среднее значение для каждого города (группового города), используя RDD и данные....

Gyu-lim Shim / 14 мая 2019

1 голос

1 ответ

Получить последний день предыдущего месяца без использования udf

Предположим, у меня есть следующий DataFrame: import pandas as pd import numpy as np np.random

pault / 14 мая 2019

0 голосов

0 ответов

Ошибка подключения драйвера Spark ODBC

Я настроил драйвер spark odbc на виртуальной машине Azure. Создан системный DSN для подключения...

Amruta / 14 мая 2019

0 голосов

2 ответов

Невозможно создать df с указанной схемой

Когда я пытаюсь создать фрейм данных со схемой в приведенном ниже коде, он не работает, и если это...

Sainath / 14 мая 2019

1 голос

0 ответов

Фрейм данных Spark равен NULL (Invalid Tree)

У меня есть задание spark (spark 2.1), которое обрабатывает потоковые данные, используя прямой...

Liz / 14 мая 2019

1 голос

0 ответов

Как сопоставить значения TFIDF с оригинальными словами

Я следовал этому примеру для вычисления TFIDF каждого слова в моих документах.Однако мой...

scarface / 13 мая 2019

0 голосов

1 ответ

Получить набор данных Spark с разными значениями в столбце

Я создал набор данных Spark из CSV-файла. Схема: |-- FirstName: string (nullable = true)<br>...

CoolBird / 13 мая 2019

0 голосов

1 ответ

Исключение броска разъема HBase при подключении

Попытка подключения к Hbase с использованием искры на основе приведенной ниже документации,...

William R / 13 мая 2019