Вопросы с тегом апаш-искровой SQL

0 голосов

2 ответов

Схема Spark JSON для динамических ключевых полей?

Я получаю данные JSON от Кафки методом from_json().Он ожидает от меня схемы.Моя структура JSON...

ogma / 27 февраля 2019

0 голосов

1 ответ

Escape Comma внутри CSV-файла с использованием спарк-оболочки

У меня есть набор данных, содержащий две строки ниже s.no,name,Country 101,xyz,India,IN 102,abc...

Johny_Bravo / 27 февраля 2019

0 голосов

1 ответ

У меня есть таблица принять таблицу в качестве необходимого кадра данных ответ в искровых Scala

sparkscala / 27 февраля 2019

0 голосов

1 ответ

Эффективное управление памятью в Spark?

Существует ли определенный стандарт для эффективного управления памятью в Spark Что если я в итоге...

Dixon / 27 февраля 2019

0 голосов

2 ответов

Spark sql: преобразование строки в метку времени: значение меняется на NULL

У меня проблема с Spark SQL, когда при типе столбца, если я приведу тип от строки к метке времени,...

knowone / 27 февраля 2019

0 голосов

1 ответ

Простой способ центрировать столбец в DataFrame Spark

Я хочу центрировать столбец в кадре данных Spark, т. Е. Вычесть каждый элемент в столбце из...

Benjamin Du / 27 февраля 2019

0 голосов

0 ответов

написать спарк DF в HDFS

У меня есть DF с ~ 500K записями: org.apache.spark.sql.DataFrame Я пытаюсь записать DF в папку...

vikky / 27 февраля 2019

0 голосов

0 ответов

Второе левое внешнее объединение не возвращает правильное количество строк с помощью Spark

В настоящее время я работаю с 3 фреймами данных и объединяю их вместе, начиная с фрейма network и...

sectechguy / 27 февраля 2019

0 голосов

1 ответ

Проверьте все элементы массива, присутствующие в другом массиве pyspark

У меня есть фрейм данных искры df1 id transactions 1 [1, 2, 3, 5] 2 [1, 2, 3, 6] 3 [1, 2, 9, 8] 4...

priya / 27 февраля 2019

0 голосов

1 ответ

Проблема вставки данных в таблицу кустов с использованием искры

В настоящее время я работаю над Spark версии 2.1.0, в рамках моей работы по сбору данных я должен...

Ajay Kharade / 26 февраля 2019

0 голосов

0 ответов

Фильтрация по окну на фрейме pyspark

Я хочу взять все предыдущие строки в наборе данных, которые соответствуют определенным критериям...

Francisco Ferreira / 26 февраля 2019

0 голосов

1 ответ

Контрольная точка для многих потоковых источников

я работаю с zeppelin, я читаю много файлов из многих источников в потоковой передаче с плагинами:с...

b2ooba / 26 февраля 2019

0 голосов

1 ответ

Неэффективно ли использовать UDF для вычисления расстояния между двумя векторами?

Я реализовал алгоритм классификации в Spark, который включает в себя расчет расстояний между...

oulenz / 26 февраля 2019

0 голосов

0 ответов

Несоответствие счета для просмотра в beeline и spark2-shell: просмотр внутри с использованием соединений на паркетных столах

sqlContext.sql("select count(*) from db_bame.vw_name") количество отсчетов x и beeline>...

Ab gupta / 26 февраля 2019

0 голосов

1 ответ

Обновление коннектора Hortonworks Hive Warehouse и схемы

Похоже, что Hortonworks Hive Warehouse Connector до v.1.0.0 не поддерживает обновления схемы.Я...

Eugene Lopatkin / 26 февраля 2019

0 голосов

1 ответ

Spark читает несколько файлов: двойные кавычки заменены на% 22

У меня есть требования для чтения случайных файлов JSON в разных папках, где данные изменились

Rohan Nayak / 26 февраля 2019

0 голосов

1 ответ

Как я могу найти медиану первых значений каждого списка в фрейме данных pyspark?

values = [(u'[23,4,77,890,455]',10),(u'[11,2,50,1,11]',20),(u'[10,5,1,22...

RAM SHANKER G / 26 февраля 2019

0 голосов

0 ответов

Достигнуто максимальное количество итераций (100) для пакетной оптимизации операторов

Я получаю эту ошибку при выполнении большого количества запросов Spark SQL.В запросах много...

Prashant / 26 февраля 2019

0 голосов

0 ответов

Включение распараллеливания в Spark с разделением Pushdown в MemSQL

У меня есть таблица columnstore в MemSQL, схема которой аналогична приведенной ниже: CREATE TABLE...

VarunG / 26 февраля 2019

0 голосов

1 ответ

Чтение CSV-файла с переменным числом запятых в качестве фрейма данных в PYSPARK

У меня есть файл, разделенный запятыми, без заголовка, с различным количеством элементов в каждой...

Samer Ayoub / 26 февраля 2019

0 голосов

0 ответов

Фрейм данных Pyspark эффективно получает столбцы с нулевыми значениями

У меня огромный кластер данных в искре.count показывает 24 миллиона строк.Также имеется более 900...

Rocky Li / 25 февраля 2019

0 голосов

0 ответов

AttributeError: объект 'NoneType' не имеет атрибута 'setCallSite' на model.surrogateDF

Я получаю эту ошибку, когда пытаюсь преобразовать значения в surrogateDF свойстве pyspark.ml

Jeff Saremi / 25 февраля 2019

0 голосов

0 ответов

паркетные поля, показывающие NULL при чтении через HIVE, НО, показывающие значения при чтении через spark

Я записываю свой фрейм данных искровой потоковой передачи в виде файла паркета в моей HDFS.Я создал...

BigD / 25 февраля 2019

0 голосов

1 ответ

Соедините n элементов после элемента в списке с самим списком

Использование PySpark. Follow : я думаю, что мне нужно только знать, как выбрать n элементы после...

Tony / 25 февраля 2019

0 голосов

1 ответ

Как выполнить запросы к таблицам Hive, отправленным через Kafka, в приложении Spark Streaming?

У меня есть приложение Spark Streaming, которое считывает имена таблиц Hive в записях Kafka,...

Srijit / 25 февраля 2019