Вопросы с тегом апаша-искра

0 голосов

1 ответ

RuntimeError: неподдерживаемый тип при преобразовании в Arrow: VectorUDT

Я хочу преобразовать большой фрейм данных Spark в Pandas с более чем 1000000 строками. Я попытался...

Saeid SOHEILY KHAH / 04 июля 2018

0 голосов

2 ответов

Можно ли использовать несколько запросов на структурированную потоковую запись (более 90) в одном задании?

Итак, я начал изучать искру и кассандру месяц назад. У меня была эта проблема, когда я должен был...

Dimas Rizky / 04 июля 2018

0 голосов

1 ответ

Чтение CSV-файлов с отсутствующими столбцами и случайным порядком столбцов

У меня есть схема, которую я хочу применить к файлам csv в Databricks. Файлы csv могут содержать 6...

reachify / 04 июля 2018

0 голосов

2 ответов

Scala - вычислить две переменные за один шаг

Я назначаю две переменные: val a: Seq[Int] = schema.map(_.getLong(key="width").toInt) val...

Katty / 04 июля 2018

0 голосов

2 ответов

Scala выбрасывает исключение NullPointer

Я выполняю приведенный ниже код для анализа данных с использованием Spark, при выполнении кода я...

Anil Kumar K B / 04 июля 2018

0 голосов

1 ответ

Действительно ли конфигурация памяти имеет значение с честным планировщиком?

У нас есть кластер hadoop с настроенным честным планировщиком. Мы привыкли видеть сценарий, когда в...

William R / 04 июля 2018

0 голосов

1 ответ

Разница между записью файлов с использованием spark и scala и преимуществами?

DF().write .format("com.databricks.spark.csv") .save("filepath/selectedDataset

saravanan saminathan / 04 июля 2018

0 голосов

1 ответ

Извлечь данные из реляционной базы данных, используя Spark (параллельный) без целочисленного столбца?

В документации по Databricks упоминается, что мы должны предоставлять значения 'partitionColumn,...

Bharath Mohan / 04 июля 2018

0 голосов

1 ответ

присвоение баллов на основе условий в фрейме данных Pyspark

У меня есть фрейм данных в Pyspark, созданный с использованием ниже. df = sqlContext

Question_bank / 04 июля 2018

0 голосов

1 ответ

Как установить / назначить тип данных, просто читая CSV-файл в Scala, не зная его схемы

У меня есть файл CSV, но я должен назначить тип данных, не зная его тип данных и схему Я имею в...

Shree Batale / 03 июля 2018

0 голосов

1 ответ

java.lang.ClassNotFoundException в программе Scala

Я пытаюсь подключить hbase от spark, и я хочу запустить файл scala jar в spark-submit. Я не уверен,...

Jeevan / 03 июля 2018

0 голосов

2 ответов

spark-submit в режиме развертывания кластера получить идентификатор приложения на консоль

Я застрял в одной проблеме, которую мне нужно быстро решить. Я прочитал много постов и учебных...

Deepan Ram / 03 июля 2018

0 голосов

1 ответ

Почему from_json завершается с ошибкой «not found: value from_json»? (2)

Уже прочитали ответ на этот вопрос , который находится на SO. Ни одно из этих исправлений не...

Bleach / 03 июля 2018

0 голосов

1 ответ

Сортировка набора данных по нескольким столбцам

У меня есть образец набора данных, как показано ниже....

Garry Steve / 03 июля 2018

0 голосов

0 ответов

Как проанализировать и ограничить использование памяти геотреллы и искры для черепицы

Наша главная цель - чтобы мы выполняли операции с большим объемом входных данных (около 80 ГБ)....

tomatenbrei / 03 июля 2018

0 голосов

1 ответ

Как удалить строки из фрейма данных искры, который соответствует регулярному выражению

Входной фрейм данных import spark.implicits._ val ds = Seq((1,"play Framwork"), (2...

adarsh kadameri / 03 июля 2018

0 голосов

1 ответ

Есть ли причина не использовать SparkContext.getOrCreate при написании искрового задания?

Я пишу Spark Jobs, которые говорят с Кассандрой в Datastax. Иногда при прохождении...

hawkeye / 03 июля 2018

0 голосов

2 ответов

сравнить имена файлов, чтобы получить последний файл с использованием идентификатора и информации о временном шаге, а затем объединить в один файл в spark scala

У меня есть сценарий, в котором файлы данных поступают (в любое время дня и приходят несколько раз...

Imi007 / 03 июля 2018

0 голосов

1 ответ

Конфигурация главного узла Dataproc

Мне интересно, насколько хорошим должен быть главный узел для spark. (Тип машины) Я видел, как люди...

Yong Hyun Kwon / 03 июля 2018

0 голосов

0 ответов

Производительность искры снижается с увеличением числа рабочих узлов

У меня есть приложение spark, которое загружает данные из CSV-файлов, вызывает механизм Drools,...

Raj / 03 июля 2018

0 голосов

2 ответов

Чтение файла, созданного в HDFS с Livy

Я использую Livy для запуска примера wordcount, создавая файл jar, который работает отлично, и...

Divine / 03 июля 2018

0 голосов

1 ответ

как установить подмножество данных из данных

Я хочу установить подкадр данных из df, сгенерированного из паркетных файлов...

Misha / 03 июля 2018

0 голосов

2 ответов

Использование когда и иначе при преобразовании логических значений в строки в Pyspark

У меня есть фрейм данных в Pyspark df.show() +---+----+-------+----------+-----+------+ |...

Question_bank / 02 июля 2018

0 голосов

1 ответ

Scala UDF возвращает «Схема для типа Unit не поддерживается»

Я хочу внести изменения в столбец в кадре данных. Столбец представляет собой массив для целых чисел

Harish Bharatham / 02 июля 2018

0 голосов

0 ответов

Spark: условно (`if`) для передачи значения параметра в функцию

Я хочу передать значение параметра в функцию, но оцениваю значение другой переменной. Я пробовал...

diens / 02 июля 2018