Вопросы с тегом апаш-искра

0 голосов

1 ответ

Spark-обработка данных, хранящихся на SSD

В настоящее время мы используем приложение на основе Spark 2.1, которое анализирует и обрабатывает...

Tapan / 15 декабря 2018

0 голосов

0 ответов

pyspark ALS Collaborative Filtering - генерация объяснений прогнозов

Пакет рекомендаций pyspark ml включает реализацию ALS, основанную на статье Ху, Корена и...

recondite_information / 15 декабря 2018

0 голосов

1 ответ

Косинусное сходство двух разреженных векторов в Scala Spark

У меня есть фрейм данных с двумя столбцами, где в каждой строке есть разреженный вектор.Я пытаюсь...

Tasos / 15 декабря 2018

0 голосов

1 ответ

Есть ли способ сделать трансляцию присоединиться в Spark 2.1 в Java

Я знаю, что в scala существует способ, как упомянуто ниже. val joined_df = df1.join(broadcast(df2),...

Shashank V C / 15 декабря 2018

0 голосов

1 ответ

Spark Scala --- ML - Колонка прогнозирования кластеров Kmeans

Я хочу добавить столбец прогноза в свой набор данных после того, как я использовал алгоритм Kmeans...

itgtzortz / 15 декабря 2018

0 голосов

0 ответов

Определенный идентификатор работы в спарк занимает много времени, этот этап содержит агрегирование по ключевому методу

при отправке следующего кода в кластер со следующей конфигурацией: мы используем двухузловой...

BalaKumar / 15 декабря 2018

0 голосов

2 ответов

withclomn in pyspark error: TypeError: объект 'Column' не вызывается

Я использую spark 2.0.1, df.show() +--------+------+---+-----+-----+----+...

Jeevan / 15 декабря 2018

0 голосов

1 ответ

Как разделить сильно несбалансированные данные с помощью тензорного потока или искры?

Данные - Данные по обучению и тестированию, которые у меня есть, очень велики по размеру ~ 150 ГБ и...

gagan malhotra / 15 декабря 2018

0 голосов

2 ответов

В фрейме данных Scala объедините эквивалентные строки после парного сравнения

У меня есть фрейм данных в scala, который является результатом попарного сравнения всех строк в...

Fincher / 14 декабря 2018

0 голосов

2 ответов

Количество разделов данных после сортировки?

Как spark определяет количество разделов после использования orderBy?Я всегда думал, что...

Raphael Roth / 14 декабря 2018

0 голосов

3 ответов

Трансляция хеш-соединения - итеративная

Мы используем широковещательное хеш-соединение в Spark, когда у нас достаточно одного кадра данных,...

vikrant rana / 14 декабря 2018

0 голосов

3 ответов

Как преобразовать DataFrame в набор данных [CaseClass]?

Я столкнулся с проблемой, пытаясь преобразовать мой Dataframe в набор данных, чтобы я мог запустить...

itgtzortz / 14 декабря 2018

0 голосов

1 ответ

Может ли spark игнорировать нечитаемые файлы?

У меня есть файловая структура в следующей форме...

ecerulm / 14 декабря 2018

0 голосов

1 ответ

Как добавить новые строки в диапазон дат в фрейме данных в pyspark

У меня есть датафрейм в pyspark, как показано ниже ID Name add date from date end 1 aaa yyyyyy...

user2935539 / 14 декабря 2018

0 голосов

0 ответов

Как вывести план выполнения искры как этап в интерфейсе искры

У меня есть настройка Zeppelin, и я пишу некоторые работы в блокноте.Во время их запуска я...

Chris Mejka / 14 декабря 2018

0 голосов

0 ответов

Использование другой версии клиентской библиотеки hadoop с apache spark

Я пытаюсь запустить две или более работы параллельно.Все задания записывают и дополняют данные,...

Ariel / 14 декабря 2018

0 голосов

0 ответов

сверкающие журналы с помощью spark.executor.logs.rolling.strategy

мы продолжаем выполнять задания с потоковой передачей, считая, что это месяцы, мы перезапускаем...

Varma / 14 декабря 2018

0 голосов

0 ответов

Как поделиться кэшированными таблицами, когда сервер Thrift работает в мультисессионном режиме в spark 1.6?

Я создал кэшированную таблицу через сеанс А через beeline, через который я могу получить доступ к...

jiayp89 / 14 декабря 2018

0 голосов

0 ответов

Искровой поток: cpp struct to kafka, kafka to spark streaming

Я работаю с Apache Spark 2.3 и читаю данные с порта UDP в формате lz0, распаковываю эти данные в...

kalpana / 14 декабря 2018

0 голосов

1 ответ

Airflow SparkSubmitOperator - Как инициировать отправку на другом сервере

Я новичок в Airflow и Spark, и я борюсь с SparkSubmitOperator . Наш планировщик воздушного потока и...

V. Foy / 14 декабря 2018

0 голосов

1 ответ

scala, как параметризировать класс case, и передать переменную класса case в [T <: Product: TypeTag]

// class definition of RsGoods schema case class RsGoods(add_time: Int) // my operation originRDD

suiwenfeng / 14 декабря 2018

0 голосов

2 ответов

Scala, Spark-shell, Groupby не работает

У меня Spark версии 2.4.0 и scala версии 2.11.12.Я могу успешно загрузить фрейм данных с помощью...

user204548 / 14 декабря 2018

0 голосов

1 ответ

Apache Spark 2.0: строка-выражение для столбца orderBy () / sort () в порядке убывания

Я смотрю на пример книги, похожий на следующий (практически идентичный): >>> from pyspark

NYCeyes / 14 декабря 2018

0 голосов

0 ответов

Добавить расширение к Spark Part Files

Я использую Spark / Scala для чтения набора данных xml-файлов, выполнения фильтрации и вывода...

Billy C / 14 декабря 2018

0 голосов

1 ответ

org.xerial.snappy.SnappyNative нельзя преобразовать в org.xerial.snappy.SnappyNativeAPI

Зависимости включают в себя: com.holdenkarau: spark-testing-bvase_2.10: 1.6.3 org.xerial.snappy:...

kingledion / 14 декабря 2018