Вопросы с тегом апаш-искра

0 голосов

0 ответов

Расширение набора данных Spark

Я хочу расширить класс Dataset из Apache Spark, добавив в него некоторые свойства.Давайте...

Ashkan / 13 февраля 2019

0 голосов

0 ответов

Использовать кэшированный RDD от другого исполнителя (того же приложения)

Приложение My Spark считывает набор данных из базы данных JDBC, перепечатывает его с...

Aleks Ya / 13 февраля 2019

0 голосов

2 ответов

Spark DataFrame saveAsTable:

Мне интересно, как можно настроить параметры таблицы, используемые DataFrameWriter#saveAsTable....

Peter G. Horvath / 12 февраля 2019

0 голосов

0 ответов

несоответствие типа искры скала

Мне нужно сгруппировать мой rdd по двум столбцам и объединить счет.У меня есть функция: def...

Ekaterina Tcareva / 12 февраля 2019

0 голосов

0 ответов

Преобразование набора данных столбца в формат Json в Spark

spark версия - 2.2 Java 1.8 У меня есть столбец в наборе данных строкового типа, но я хочу...

Chandra / 12 февраля 2019

0 голосов

0 ответов

Аналитические возможности Cypher vs GraphX

Я использую Neo4j для хранения данных графика и знаю, что хочу использовать Spark в качестве...

HashRocketSyntax / 12 февраля 2019

0 голосов

1 ответ

SparkML: предсказания конвейера содержат меньше записей, чем входные

Как я могу узнать - внутри конвейера - какие записи пропускаются или удаляются из преобразования? У...

Jeff Saremi / 12 февраля 2019

0 голосов

2 ответов

обработка сетевых пакетов в искре с сохранением состояния

Я хотел бы использовать Spark для разбора сетевых сообщений и группировки их в логические объекты с...

Joachim / 12 февраля 2019

0 голосов

0 ответов

Spark - Как читать несколько файлов с разными кодировками

Мне нужно прочитать несколько файлов с несколькими кодировками (UTF-16LE, UTF-8, Windows-1252 и т

Alejandro Sánchez Muñoz / 12 февраля 2019

0 голосов

1 ответ

как запустить искру на пряжу-клиент

Я пытаюсь запустить pyspark на yarn-client, не уверен, что может быть причиной, и не может...

Exorcismus / 12 февраля 2019

0 голосов

1 ответ

Искровой аккумулятор

Я новичок в аккумуляторах в Spark.Я создал аккумулятор, который собирает информацию о сумме и...

JohnAster / 12 февраля 2019

0 голосов

1 ответ

Как исправить ошибку «Нельзя использовать ноль в качестве ключа карты!»ошибка в Spark.SQL с Python 3 при использовании Group_Map

Я работаю с Spark.SQL и пытаюсь создать сводную таблицу с помощью оператора MAP, чтобы значения...

Alejandro Abad / 12 февраля 2019

0 голосов

1 ответ

Читайте из ресурсов при запуске Spark в Yarn

В моей работе Spark я читаю некоторые дополнительные данные из файлов ресурсов. Некоторые примеры...

LeonB / 12 февраля 2019

0 голосов

0 ответов

sparklyr: не удается открыть локальное соединение |Доступ запрещен

Я пытался запустить локальный экземпляр Spark на моем ноутбуке с Windows 10 от RStudio, но...

DjHernanV / 12 февраля 2019

0 голосов

1 ответ

Столбец Spark RowMatrixСходства сохраняют исходный индекс

У меня есть следующий фрейм данных Scala Spark df из (String, Array[Double]): Примечание id имеет...

Ivan / 12 февраля 2019

0 голосов

2 ответов

Pyspark считывает выбранные файлы дат из хранилища иерархии дат

Я пытаюсь прочитать несколько CSV-файлов с помощью Pyspark, данные обрабатываются Amazon Kinesis...

Nicolò Gasparini / 12 февраля 2019

0 голосов

1 ответ

Статус выхода: -100.Диагностика: контейнер освобожден на * потерянном * узле

У меня есть 2 входных файла (один в JSON, а другой в паркетном), я пытаюсь объединить эти 2 больших...

user3407267 / 12 февраля 2019

0 голосов

1 ответ

В чем выгода сжать ORC или паркет

Файлы ORC и Parquet сами по себе (без других параметров сжатия, например, snappy) имеют эффекты...

Tom / 12 февраля 2019

0 голосов

2 ответов

Искровой поток вместо Java REST API

У нас есть приложение, которое получает данные от конечной точки отдыха.Выполняет некоторую...

user3123372 / 12 февраля 2019

0 голосов

2 ответов

Scala Spark DataFrame Map Encoder не примитивного типа

У меня есть фрейм данных Scala Spark (переменная df): id, values "a", [0.5, 0.6]...

Ivan / 12 февраля 2019

0 голосов

0 ответов

Обновление / добавление данных в таблицу Redshift с использованием Spark (или Spark Streaming)

Я читаю данные из S3 с использованием Spark Streaming и хочу обновить потоковые данные в Amazon...

Prashant Tatan / 12 февраля 2019

0 голосов

2 ответов

Разбор JSON для структурированной потоковой передачи Spark

Я реализовал Spark Structured Streaming, и для моего случая использования я должен указать...

Venkata / 12 февраля 2019

0 голосов

0 ответов

Структурированная трансляция: как будет работать задержка?

Как будет работать задержка в заданиях на структурированную потоковую передачу.это создаст задержку...

Arokiaraj / 12 февраля 2019

0 голосов

0 ответов

Словарь метаданных Pyspark spark-ml пуст

Я реализую текстовый классификатор в pyspark, как показано ниже tokenizer =...

Praveen / 12 февраля 2019

0 голосов

1 ответ

Отправка сценария pyspark на удаленный сервер Spark?

Возможно, это действительно глупый вопрос, но я не могу найти ответ в Google.Я написал простой...

aco / 12 февраля 2019