Вопросы с тегом апаш-искра

0 голосов

1 ответ

Интерпретация коэффициентов Matrix, interceptVector и Confusion matrix при многочленной логистической регрессии

Может кто-нибудь объяснить, как интерпретировать coefficientMatrix, interceptVector, Confusion...

Amir Choubani / 10 июня 2018

0 голосов

0 ответов

трубопровод spark ML дает разные значения для разных трасс

У меня есть конвейер с тем же входом (кэшированный фрейм данных), я меняю только один этап каждый...

sparkly / 10 июня 2018

0 голосов

1 ответ

Можно ли сгруппировать блок данных Spark, если в столбце присутствуют не все значения?

Например, если у меня есть следующий фрейм данных val tempDF=Seq(("a",2),("b"...

antonioACR1 / 10 июня 2018

0 голосов

0 ответов

Pyspark - запись данных в csv

Я пытаюсь записать фрейм данных pyspark в файл csv, но проблема, с которой я здесь сталкиваюсь,...

Jack / 10 июня 2018

0 голосов

2 ответов

Spark найти блоки значений NULL в Серии значений

Предположим, это мои данные: date value 2016-01-01 1 2016-01-02 NULL 2016-01-03 NULL 2016-01-04 2...

nik / 09 июня 2018

0 голосов

1 ответ

Как получить или создать клиент Hadoop от Spark Executor

Есть ли способ получить Hadoop FileSystem от Spark Executor при выполнении операции mapPartitions...

miguel0afd / 09 июня 2018

0 голосов

2 ответов

Карта объекта ошибки Spark-shell не является членом пакета org.apache.spark.streaming.rdd

Я пытаюсь прочитать json и разобрать два значения valueStr1 и valueStr2 из темы Кафки...

user3243499 / 09 июня 2018

0 голосов

1 ответ

Ничего не найдено в _spark_metadata

Я пытаюсь прочитать CSV-файлы из определенной папки и записать то же содержимое в другой CSV-файл в...

Khan Hafizur Rahman / 09 июня 2018

0 голосов

0 ответов

Как вычислить систему собственных векторов матрицы с помощью Apache PySpark 2.3

Я должен вычислить собственное значение наименьшей величины и связанный с ним собственный вектор...

Gennaro / 09 июня 2018

0 голосов

0 ответов

Минус запросы между HDFS и CASSANDRA с 70 миллионами записей занимают около 40 минут

Мой файл партера HDFS и таблица Cassandra содержат 70 миллионов строк, 16 столбцов и 14 столбцов в...

Chandan Ray / 09 июня 2018

0 голосов

1 ответ

Как сохранить данные для последующей обработки после остановки DirectStream в SparkStreaming?

Я создаю ниже KafkaDirectStream. val messages = KafkaUtils.createDirectStream[String, String]( ssc,...

user3243499 / 09 июня 2018

0 голосов

1 ответ

Какие зависимости для структурированного потокового вещания с Kafka?

У меня есть приложение Kafka и Spark для структурированной потоковой передачи.В частности, у меня...

Alberto / 09 июня 2018

0 голосов

2 ответов

Приведение массива двойных к строковым в искровой sql

Я пытаюсь прочитать данные из JSON, у которого есть массив, имеющий значения lat, long, что-то...

game_changer / 09 июня 2018

0 голосов

2 ответов

обрезать фрейм данных в искре, используя последнее появление значения в столбце

У меня есть датафрейм, где я хочу обрезать его по последнему появлению значения Good в столбце PDP

dsl1990 / 09 июня 2018

0 голосов

0 ответов

Проверка схемы в структурированном потоке

У меня есть тема на Кафке, которую я потребляю, и я использую from_json для преобразования...

Brian / 08 июня 2018

0 голосов

0 ответов

Пишите в Kafka из структурированной потоковой передачи Spark с использованием сервера localhost

Я занимаюсь разработкой структурированного приложения Spark Stream, в котором после анализа я...

Khan Hafizur Rahman / 08 июня 2018

0 голосов

1 ответ

Как извлечь значения функций в Sparklyr?

Рассмотрим этот простой пример dtrain <- data_frame(text = c("Chinese Beijing Chinese"...

ℕʘʘḆḽḘ / 08 июня 2018

0 голосов

0 ответов

Дедупликация: различное содержимое файла sbt-Assembly

У меня есть мульти-проект, созданный с использованием sbt, и я хотел бы создать исполняемый файл...

Cassie / 08 июня 2018

0 голосов

2 ответов

искра sql udf приведение возвращаемое значение

У меня есть переменная, объявленная следующим образом: val jobnameSeq = Seq( ("42409245",...

Kiwy / 08 июня 2018

0 голосов

1 ответ

Как вывести схему файлов JSON?

У меня есть следующая строка в Java { "header": { "gtfs_realtime_version":...

Alberto / 08 июня 2018

0 голосов

1 ответ

Как работать с разделителем с обратной косой чертой в данных

Как мне обработать |, который также является разделителем в моих данных, Вот примерное значение...

Arjun / 08 июня 2018

0 голосов

1 ответ

Фильтрация вершин по свойствам GraphX

Привет. Я пытаюсь отфильтровать эти триплеты по их свойствам и распечатать их, но у меня возникли...

gannina / 08 июня 2018

0 голосов

1 ответ

Как заставить определенное разбиение в PySpark DataFrame?

Предположим, у меня есть DataFrame со столбцом partition_id: n_partitions = 2 df = spark

abeboparebop / 08 июня 2018

0 голосов

0 ответов

YarnAllocator запрашивает контейнеры больше, чем я просил

YarnAllocator и Yarn Resource Manager действовали настолько щедро, что запросили и дали больше, чем...

minyo / 08 июня 2018

0 голосов

0 ответов

Ошибка искровой нити (код 13)

Я пытаюсь запустить программу в кластере, используя YARN. YARN присутствует там вместе с HADOOP....

Aakash Basu / 08 июня 2018