Вопросы с тегом апаша-искра

0 голосов

0 ответов

Spark подает параллельную работу

(есть проблема с Apache Spark У меня есть кластер с 10 узлами (1 ведущим и 9 ведомыми), каждый узел...

Yacine Mohammed / 29 апреля 2018

0 голосов

0 ответов

Запуск Spark2.3 в Kubernetes с удаленной зависимостью от S3

Я бегу spark-submit для запуска в Kubernetes (Spark 2.3). Моя проблема в том, что InitContainer не...

joshuarobinson / 29 апреля 2018

0 голосов

1 ответ

Каким будет эквивалент scala следующего кода на python?

men = data.flatMap(lambda x :x['text'].split(" ")) \ .filter(lambda x: len(x

Saurabh / 29 апреля 2018

0 голосов

1 ответ

Pyspark -> StringIndexer: значение «None» заменяется числом

У меня есть фрейм данных, который имеет несколько значений «None». После преобразования строковых...

Tomas Goffa / 29 апреля 2018

0 голосов

2 ответов

Как создать карту комбинаций гласных из слов в текстовом файле

Мне нужно объединить комбинации гласных слов в текстовом файле, используя Scala. Например, если...

zach / 29 апреля 2018

0 голосов

0 ответов

Программа Spark, принимающая конфигурации hadoop из неопределенного места

У меня есть несколько тестовых случаев, таких как чтение / запись файла в HDFS, которые я хочу...

udit / 29 апреля 2018

0 голосов

1 ответ

Как записать в HDFS, используя API программирования spark, если у меня есть данные для аутентификации?

Мне нужно записать во внешний кластер HDFS, данные аутентификации которого доступны как для простой...

A.G. / 29 апреля 2018

0 голосов

1 ответ

Искра - наиболее частое слово, следующее за данным словом

Я изучаю Scala и пытаюсь выяснить, как создать программу MapReduce в Scala, чтобы найти для каждого...

drizzle / 29 апреля 2018

0 голосов

2 ответов

произошла ошибка компиляции scala spark, ожидаемый класс или определение объекта

Я хочу запустить эту программу. Я новичок в Scala Spark. У меня «ошибка компиляции» кто-нибудь...

AliSafari186 / 28 апреля 2018

0 голосов

2 ответов

Spark & hbase: java.io.IOException: сброс соединения по пиру

Буду признателен, если вы поможете мне. Во время реализации потоковой передачи искры от kafka к...

feus.tigris / 28 апреля 2018

0 голосов

1 ответ

Сохранить набор данных Spark 2.3.0 в качестве формата изображения

Используя новую функцию Spark 2.3.0, ImageSchema, я считал некоторые изображения в виде набора...

Soheil Pourbafrani / 28 апреля 2018

0 голосов

1 ответ

Как я могу запустить Pyspark в интерактивном режиме в Jupyter, используя режим YARN-client?

Теперь мне удалось запустить Pyspark в Jupyter в локальном режиме вторым способом, упомянутым в...

fuko / 28 апреля 2018

0 голосов

1 ответ

Дополнительные разделители при записи искрового фрейма данных в hdfs

Один из столбцов в моем исходном файле данных содержит двойные кавычки ("), и когда я пытаюсь...

vp1008 / 28 апреля 2018

0 голосов

5 ответов

Как получить только одну строку, которая чуть меньше указанного значения в кадре данных искры

У меня есть датафрейм, как показано ниже - Id,timestamp 100,1 200,2 300,3 400,4 500,5 600,6 А...

Rajendra Jangir / 27 апреля 2018

0 голосов

2 ответов

Spark: преобразование файлов JSON в правильный формат

У меня более 100 миллионов записей, хранящихся в файлах со следующей структурой JSON (реальные...

Dalphin / 27 апреля 2018

0 голосов

1 ответ

Чтение файлов из HDFS с помощью Scala и создание RDD с ним

Я пытаюсь загрузить некоторые файлы в HDFS с использованием Scala. Тем не менее, я получаю ту же...

Miguel A. Friginal / 27 апреля 2018

0 голосов

2 ответов

Можно ли использовать разъем hbase-spark для сортировки строк hbase по некоторым столбцам с хорошей производительностью?

Ну, название вопросов говорит само за себя. У меня есть требование, которое требует получения...

anir / 27 апреля 2018

0 голосов

2 ответов

Интерполировать столбец DataFrame и сортировать по другому столбцу в PySpark или Pandas

Учитывая следующий DataFrame, нам нужно интерполировать my_column значения из примера и...

ivan_bilan / 27 апреля 2018

0 голосов

2 ответов

проверить, является ли CSV-файл пустым или нет в спарк-скале

Я хочу проверить, является ли .csv null или нет. Если не null и содержит запись, обработайте файл,...

pooja / 27 апреля 2018

0 голосов

3 ответов

ВЫБЕРИТЕ РАЗЛИЧНЫЕ Кассандры в Искре

Мне нужен запрос, в котором перечислены уникальные Составные ключи разделов внутри Spark. Запрос в...

ChiMo / 27 апреля 2018

0 голосов

2 ответов

Жир JAR с Kotlin и Apache Spark 2.3

Я использую gradle для создания своего проекта, смешивающего Kotlin и Apache Spark, но как только я...

Jairo Andres Velasco Romero / 27 апреля 2018

0 голосов

1 ответ

Обработка ошибок с помощью Try match внутри udf - и запись строки, где это не удалось

Scala версии 2.11 и Spark 2.0.1. У меня есть датафрейм, где я делаю некоторые операции внутри udf....

Terry / 27 апреля 2018

0 голосов

1 ответ

Запись набора данных с разделами в HDFS / S3 с файлом _SUCCESS в каждом разделе

при записи многораздельного набора данных в HDFS / S3 файл _SUCCESS записывается в выходной каталог...

femibyte / 26 апреля 2018

0 голосов

0 ответов

java.lang.NoSuchMethodError: org.apache.hadoop.security.UserGroupInformation.getCredentials ()

Я получил эту ошибку при попытке запустить «Как использовать MongoDB Hadoop Connector с Spark». на...

Hung Nguyen / 26 апреля 2018

0 голосов

0 ответов

Удаленное исключение при записи данных в путь hdfs

Я пытаюсь записать данные с помощью PySpark с локального на удаленный сервер, и я получаю сообщение...

Praveen Mandadi / 26 апреля 2018