Вопросы с тегом апаш-искра

0 голосов

0 ответов

memsqlConnector создает исключение с потоковой структурой spark 2.4

Я использую memsql-spark-connector 2.0.6 в приложении Spark Structured Streaming. val map:...

sam22 / 24 февраля 2019

0 голосов

1 ответ

Нужно ли мне постоянно обновлять СДР?

Я работаю с программой искры, которой необходимо постоянно обновлять некоторые СДР в цикле: var...

Skateboard / 24 февраля 2019

0 голосов

1 ответ

План объяснения Spark SQL вызывает вычисление временной таблицы много раз

Я новичок в Spark SQL и использую объяснение, чтобы узнать, как он может оптимизировать код.Я...

Joe C / 24 февраля 2019

0 голосов

0 ответов

Spark Структурированная потоковая передача применяет различные модели Mllib на основе значения столбца

Я использую структурированную потоковую передачу с Kafka.В HDFS хранится около 10 различных моделей...

Vinodh Krishnaraju / 23 февраля 2019

0 голосов

1 ответ

Spark SQL - сравнение данных

Как лучше всего сравнить два файла csv (миллионы строк) с одной и той же схемой со столбцом...

Faizal / 23 февраля 2019

0 голосов

1 ответ

Реализация приемника Cassandra в потоковой передаче Spark с использованием ForeachWriter

Очевидно, что нет встроенной поддержки приемника Cassandra в потоковой передаче Spark.Я нашел этот...

AbhinavChoudhury / 23 февраля 2019

0 голосов

2 ответов

Удалить строки, содержащие определенное значение в фрейме данных PySpark

У меня есть фрейм данных pyspark: ABC 1 NA 9 4 2 5 6 4 2 5 1 NA Я хочу удалить строки, содержащие...

jk1093 / 23 февраля 2019

0 голосов

0 ответов

Spark работает намного лучше, чем Drill с паркетными столами

Мне интересно, что вы испытываете, когда запускаете сложные запросы SQL с несколькими объединениями...

Tomasz Krol / 23 февраля 2019

0 голосов

0 ответов

Повторяющиеся записи появляются в реализации oaspark.sql.sources.v2.writer.DataWriter.writeRecord?

В настоящее время мы изучаем Apache Spark (с Hadoop) для выполнения крупномасштабного...

Steve C / 23 февраля 2019

0 голосов

1 ответ

Scala: использование функции spark sql при выборе столбца в кадре данных

У меня есть две таблицы / фрейма данных: A и B A имеет следующие столбцы: cust_id, purch_date B...

skdhfgeq2134 / 23 февраля 2019

0 голосов

0 ответов

Чтение данных по кластерам в Apache Spark

У меня есть огромная таблица, которую я загружаю из RedShift в csv-файл на S3, используя блокнот...

user1552698 / 23 февраля 2019

0 голосов

0 ответов

Правильный объем памяти Spark Executor с учетом определенного размера данных

Многие обсуждения, которые я обнаружил в Интернете по поводу распределения ресурсов, были посвящены...

Supergan / 23 февраля 2019

0 голосов

1 ответ

Spark to_date генерирует странный 5-значный год

Я выполнил следующее предложение выбора для таблицы HIVE в редакторе HUE и получил результат ниже....

F. Aydemir / 23 февраля 2019

0 голосов

0 ответов

apache spark: связь между размером случайного чтения и случайным разливом (памятью)?

Я уже погуглил и знал, что случайный разлив (память) - это размер десериализованной формы данных в...

Alan Li / 23 февраля 2019

0 голосов

2 ответов

dataframe.select, выберите столбцы dataframe из файла

Я пытаюсь создать дочерний фрейм данных из родительского фрейма данных.но у меня есть более 100...

user2232840 / 22 февраля 2019

0 голосов

2 ответов

Зачем нам нужна виртуальная машина для установки и использования Apache Spark?

Я новичок в экосистеме больших данных.Я пытаюсь установить Apache Spark, но в учебных руководствах,...

Arun kumar / 22 февраля 2019

0 голосов

0 ответов

Как отладить и настроить приложение Spark 2.0+ из веб-интерфейса?

Мое искровое приложение уже давно запущено. Сцена застряла в 199/200, как показано на рисунке....

Alan Li / 22 февраля 2019

0 голосов

0 ответов

Ошибки JDBC при подключении Zeppelin Pyspark к Redshift

Я использую: EMR 5.20 Zeppelin 0.8.0 Spark 2.4.0 Мне удалось добавить интерпретатор Redshift, но я...

hhenry / 22 февраля 2019

0 голосов

1 ответ

Разница между callUDF и udf.register в искре

У меня есть udf как часть импорта, и я использую его в своем искровом коде spark

Srinivas / 22 февраля 2019

0 голосов

0 ответов

Scala: доступ / редактирование карты из dataframe.foreach

Я довольно новичок в scala, поэтому любые советы / основы приветствуются.Я пытаюсь получить доступ...

ankur / 22 февраля 2019

0 голосов

0 ответов

искра посэксплоде не с колонкой

Как я могу использовать posexplode в искрах withColumn оператор? Seq(Array(1,2,3)).toDF

Georg Heiler / 22 февраля 2019

0 голосов

0 ответов

Spark Streaming Пишет во внешнее хранилище. Как убедиться, что данные не потеряны?

Ситуация, подобная этой: val lines = readKafka .... lines.foreachRDD { ... // transformation ... //...

snow / 22 февраля 2019

0 голосов

2 ответов

Как читать кадр данных построчно, не меняя порядок?в Spark Scala

У меня есть датафрейм, который содержит последовательность строк.Я хочу перебирать строки по...

Kuppu / 22 февраля 2019

0 голосов

1 ответ

Каков наилучший способ взаимодействия с Hbase с помощью Pyspark?

Я использую pyspark [spark2.3.1] и Hbase1.2.1, мне интересно, как лучше всего получить доступ к...

Chauhan B / 22 февраля 2019

0 голосов

0 ответов

как настроить zkUrl в феникс-спарк

zkUrl просто настройте одного зоопарка ip:port.Как я могу настроить mutiple ip:port spark

user6643089 / 22 февраля 2019