Вопросы с тегом апаш-искра

0 голосов

0 ответов

Запрос Spark SQL возвращает выходные данные, хотя в таблице кустов недостаточно записей в столбце запроса

Я получил вывод из запроса Spark SQL, несмотря на то, что фактическая таблица кустов не содержит...

venkat / 17 февраля 2019

0 голосов

0 ответов

что такое использование каталога _spark_metadata

Я пытаюсь понять, как работает потоковая передача в spark. У меня есть файл в каталоге...

Manu Chadha / 17 февраля 2019

0 голосов

3 ответов

Как создать Spark SQL Dataframe со списком объектов Map

У меня есть несколько Map[String, String] в List (Scala).Например: map1 = Map("EMP_NAME"...

SAIYED / 17 февраля 2019

0 голосов

0 ответов

Функция окна Pyspark не печатает результаты

У меня есть потоковый код pyspark, который считывает данные сердцебиения с сервера kafka.Я могу...

goutham r / 17 февраля 2019

0 голосов

1 ответ

Реализация собственного алгоритма в графических фреймах

Я хочу запустить алгоритм двусвязного графа на графике, используя GraphFrames, работающий с pyspark...

Ron F / 17 февраля 2019

0 голосов

0 ответов

API SPARK REST: почему executorCpuTime намного меньше, чем taskTime?

У меня есть этап с одной задачей.Я пытаюсь понять, почему taskMetrics. taskTime (7051/10 ^ 3 = 7,0...

Dror B. / 17 февраля 2019

0 голосов

0 ответов

Ошибка потоковой передачи искры: java.lang.IllegalArgumentException: java.net.URISyntaxException: Относительный путь в абсолютном URI:

Я пытаюсь транслировать данные из темы kafka avro. Ниже приведен мой фрагмент кода: val...

user5463155 / 17 февраля 2019

0 голосов

0 ответов

Использование spark для загрузки картинок и сохранения в HDFS

У меня есть текстовый файл HDFS, каждая строка которого является URL-адресом, с которого я могу...

David / 17 февраля 2019

0 голосов

0 ответов

Spark SQL, не поддерживает формат Dataframe

Я анализирую файлы Twitter с целью взять актуальную тему в формате json с Spark SQL После того, как...

Enrique Benito Casado / 17 февраля 2019

0 голосов

1 ответ

Время жизни переменных Spark Broadcast

Я выполняю задание потоковой передачи, в рамках которого я создаю несколько широковещательных...

Venkata / 17 февраля 2019

0 голосов

0 ответов

Spark 2.4.0 - Различные варианты управления памятью

Может кто-нибудь помочь прояснить различные варианты управления памятью в новейшей версии Spark 2.4

abhinavkulkarni / 17 февраля 2019

0 голосов

1 ответ

Увеличение хеш-таблиц в MinHashLSH, снижение точности и f1

Я использовал MinHashLSH с приблизительным значением сходства со Scala и Spark 2.4, чтобы найти...

atheodos / 16 февраля 2019

0 голосов

0 ответов

Невозможно выполнить хранимую процедуру Oracle в режиме кластера Spark

Я использую pyspark. В моей программе я создаю фрейм данных и вставляю данные в Oracle DB. Но не...

Rudrashis / 16 февраля 2019

0 голосов

1 ответ

Как ускорить обработку / запись одного сложного набора данных

У меня есть одна функция, которая отправляет большой объем данных (миллиарды строк) и возвращает...

Martin / 16 февраля 2019

0 голосов

1 ответ

Разбор pyspark dataframe

Я создал фрейм данных pyspark, как показано ниже: df = spark.createDataFrame([([0.1,0.2], 2), ([0

Praveen / 16 февраля 2019

0 голосов

0 ответов

Как добавить отношения в граф Neo4j с GraphFrames в Spark

У меня есть фильмы и соответствующие им касты в базе данных Neo4j, и я хочу создать COWORKER...

Tim Holdsworth / 16 февраля 2019

0 голосов

0 ответов

Как расширить Spark DataSet API для реализации такого оператора, как collect () (JAVA)

Я работаю в университете, и пытаюсь заставить Spark SQL работать с зашифрованными данными.Я...

proxyfss / 16 февраля 2019

0 голосов

0 ответов

Загрузите данные, несколько файлов в улей

Я хочу загрузить данные из нескольких файлов, хранящихся в одном каталоге, в многораздельную...

Tahreem Nawaz / 16 февраля 2019

0 голосов

0 ответов

Значение Spark SQL named_struct как NULL

Я хочу обнулить какое-то значение в моем вложенном фрейме данных и записать его в Amazon Redshift,...

Am1rr3zA / 15 февраля 2019

0 голосов

0 ответов

Как изменить компаратор Spark GroupBy / OrderBy для работы с зашифрованными данными

Я работаю в университете, и пытаюсь заставить Spark SQL работать с зашифрованными данными (с...

proxyfss / 15 февраля 2019

0 голосов

0 ответов

java.lang.UnsupportedOperationException: или UnimplementedType (10,0)

java.lang.UnsupportedOperationException: org.apache.parquet.column.values.dictionary

Parthiv Gogree / 15 февраля 2019

0 голосов

1 ответ

Датафреймы и наборы данных в Spark

Я новичок в Spark и проходил через Dataframes и Dataset.Я пытался понять разницу между ними, но я...

optimal substructure / 15 февраля 2019

0 голосов

0 ответов

Как передать все оконные значения в pyspark UDF

Я хочу выполнить следующие операции над фреймом данных: Столбец Groupby Данные окна выполнить (udf)...

ciri / 15 февраля 2019

0 голосов

1 ответ

SPARK не может использовать поток AWS Kinesis

Environment : EMR AWS Kinesis Steam Language : PySpark У меня есть входящий поток AWS Kinesis, и я...

Sachin Sukumaran / 15 февраля 2019

0 голосов

1 ответ

Ошибка локальной загрузки файла в приложении spark

В моем коде я пытаюсь загрузить файл, который находится на моем локальном компьютере, в приложение...

arg / 15 февраля 2019