Вопросы с тегом апаша-искра

0 голосов

1 ответ

Как использовать метод Spark hadoopFile, чтобы использовать пользовательский формат ввода с типом значения Text?

Как использовать метод Spark hadoopFile, чтобы использовать пользовательский формат ввода с типом...

samthebest / 14 мая 2019

2 голосов

1 ответ

sql order by не работает, когда spark подключается к kylin через jdbc

Мы используем apache spark для запроса данных из apache kylin через jdbc, мы пишем sql с...

hometown / 14 мая 2019

1 голос

1 ответ

Как создать несколько фреймов данных, используя один и тот же класс case

Как создать несколько фреймов данных, используя один и тот же класс case?Предположим, я хочу...

Rittik De / 14 мая 2019

0 голосов

1 ответ

Эффективный способ сбора HashSet во время работы с картой на некотором наборе данных

У меня большой набор данных для преобразования одной структуры в другую. Во время этой фазы я также...

jk1 / 14 мая 2019

0 голосов

0 ответов

Как установить имя раздела по уникальному идентификатору столбца на s3, используя R

Я работаю над фреймом данных, в котором один столбец однозначно идентифицирует данные, а другой - в...

Catarina Nogueira / 14 мая 2019

0 голосов

2 ответов

Свести несколько столбцов данных в один

Каждый день я получаю файл с ~ 2k столбцами.Есть 900 столбцов "отношения".Например: data.id | name...

Adas Kavaliauskas / 13 мая 2019

0 голосов

1 ответ

когда Ι записать фрейм данных в файл CSV, некоторые символы хранятся как \ "\"

здесь - изображение CSV-файла. val df = Seq((0l, "East", "100", " "),...

raviston dhanasekar / 13 мая 2019

0 голосов

0 ответов

Как отслеживать уже обработанные файлы в hdfs в спарке

Таким образом, у меня есть искорка, которая работает каждый час. Работа обрабатывает файлы из HDFS....

Vamshi Lonavath / 13 мая 2019

3 голосов

1 ответ

Невозможно сгруппировать столбец MapType в Spark DataFrame

Моя текущая проблема следующая ... Exception in thread "main" org.apache.spark.sql

Lenny D. / 13 мая 2019

0 голосов

0 ответов

Spark создает файл данных - проблема заголовка / трейлера

У меня есть определенный сценарий создания извлечения файла dat/delimited в scala/spark; просто...

knowone / 13 мая 2019

0 голосов

1 ответ

Встроенная функция карты вместо циклов

У меня есть таблица в dataframe с тремя столбцами.city_name, driver_name, транспортные средства, из...

rahul chaturvedi / 12 мая 2019

0 голосов

0 ответов

Spark Job Tuning / Улучшения

Играю со Spark уже около 5 месяцев, так что наверняка еще новичок. У меня есть работа, на которую я...

DataDog / 12 мая 2019

0 голосов

1 ответ

Spark против Hadoop с этим простым примером?

Везде в Google ключевое различие между Spark и Hadoop MapReduce указано в подходе к обработке:...

emilly / 12 мая 2019

1 голос

1 ответ

Передача данных из scala в python с использованием JEP

Вот что я пытаюсь сделать: Я читаю данные в scala Извлекаю несколько столбцов Используя JEP,...

Rookie111 / 12 мая 2019

2 голосов

1 ответ

Ошибка разбора Elasticsearch Spark - невозможно проанализировать значение [X] для поля [Y]

Я использую Spark 2.3 (Pyspark) для чтения данных из индекса Elasticsearch 6.6. Задание Spark...

user9074332 / 11 мая 2019

0 голосов

0 ответов

Установить путь NFS для распределенной спарк-сессии

Я пытаюсь продемонстрировать выполнение сценария Pyspark Mllib в распределенном кластере Spark. Он...

Mindtree / 11 мая 2019

0 голосов

1 ответ

Как заменить значение в кадре данных на основе значения из другого столбца в том же кадре данных?

У меня есть датафрейм, полученный после чтения таблицы, как показано ниже, с использованием spark:...

Metadata / 11 мая 2019

0 голосов

1 ответ

Удалить записи из mutable.mutableList в Scala

У меня есть mutable.MutableList [emp] со следующей структурой. case class emp(name: String...

Babu / 11 мая 2019

0 голосов

1 ответ

Есть ли файл конфигурации при установке спарк зависимости с scala

Я установил спарк с sbt в зависимости проекта.Затем я хочу изменить переменные искрового окружения,...

Golddy / 11 мая 2019

0 голосов

0 ответов

не удается создать спикер withColumn при создании нового фрейма данных, когда это делается в цикле

У меня есть фрейм данных, в котором я разделил его на «matchedDF» и «unmatchedDF» на основе...

user2704580 / 11 мая 2019

0 голосов

0 ответов

Spark Oracle Connection: java.sql.SQLException: нет подходящего драйвера

Исключение Stackstrace: java.sql.SQLException: Нет подходящего драйвера Maven: ojdbc7 12.1.0.1...

user3855050 / 10 мая 2019

0 голосов

2 ответов

Перезаполнение нескольких столбцов Многоразовый код функции

Я пытаюсь преобразовать процесс импутации прямой заливки, основанный на предыдущем сообщении о...

thePurplePython / 10 мая 2019

0 голосов

0 ответов

проблема при переходе из pyspark в функцию scala

Я конвертирую ниже функции pyspark в Spark-Scala. В функции pyspark мы передаем в качестве...

suchitdreams / 10 мая 2019

0 голосов

0 ответов

Запускать работу spark2 через действие оболочки Oozie?

Как уже упоминалось в названии, я пытаюсь запустить действие оболочки, которое запускает искровую...

DPEZ / 10 мая 2019

1 голос

0 ответов

Как запустить приложение Scala на автономном кластере Spark?

Я пытаюсь настроить автономный спарк-кластер на моей машине с Windows и запустить приложение scala...

Tusharjain93 / 10 мая 2019