Вопросы с тегом апаш-искра

0 голосов

0 ответов

Scala RDD-конвейер к Python-коду создает исключение IllegalStateException на Linux Server, в то время как локально в Windows работает нормально

Я пытаюсь выполнить код Python внутри программы Scala. Все отлично работает локально на машине с...

Jimmy Maguel / 06 марта 2019

2 голосов

1 ответ

Разъем Spark Cassandra - входной размер выборки

Я использую Cassandra 3.11.4 и Spark 2.3.3.Когда я запрашиваю множество ключей раздела (в течение 3...

Mustafa Genç / 06 марта 2019

1 голос

0 ответов

Cube / Roll up Функция dataframe, но пропустить суммирование столбца для нескольких записей в искре

У меня есть следующий фрейм данных: +--------+------+---------+---------+ | Col1 | col2 | values1 |...

John Humanyun / 06 марта 2019

0 голосов

2 ответов

pyspark объединяет два Dataframe и сохраняет строки до последней даты

Chemssii / 06 марта 2019

1 голос

0 ответов

Кафка не создает группу потребителей при чтении из одного раздела

Я читаю из kafka с использованием искровой структурированной потоковой передачи, ниже мой поток...

dexter007 / 06 марта 2019

0 голосов

1 ответ

Бегущая искра Билайн на Пряже

Я использую Билайн для выполнения hql-запросов.Задание не отображается в диспетчере ресурсов для...

J-kram / 06 марта 2019

0 голосов

2 ответов

Действие искры застряло с EOFException

Я пытаюсь выполнить действие с помощью Spark с зависанием.Соответствующий исполнитель выдает...

Markus Wilhelm / 06 марта 2019

0 голосов

0 ответов

Spark Job JAVA RDD Performance Все данные отправляются на один узел исполнителя

У меня проблемы с производительностью заданий Spark, большая часть данных выполняется только одним...

msg4u / 06 марта 2019

0 голосов

1 ответ

Как обеспечить локальность данных в источнике данных Spark v2?

Я реализую источник данных Spark (v2) и не нашел способа обеспечить локальность данных. В источнике...

Venus / 06 марта 2019

0 голосов

0 ответов

Как приравнять задачи на этапе к DAG на интерфейсе Spark?

В пользовательском интерфейсе Spark тег этапа показывает задачи и DAG https://www.waitingforcode

Joe C / 06 марта 2019

0 голосов

1 ответ

как определить свойства конфигурации искровой пряжи

Мы используем кластер с открытым исходным кодом Apache spark, и у меня есть следующий...

Chandra / 06 марта 2019

0 голосов

1 ответ

Столбцы, которые являются дубликатами и не входят в условие соединения данных - Как удалить их в PySpark?

У меня есть два кадра данных, которые имеют общие имена столбцов. df1 -> ID, имя, адрес, отдел df2...

Seeker90 / 06 марта 2019

0 голосов

1 ответ

Потоковая аналитика с использованием Apache Kafka

Мы собираем потоковые данные с устройства (Android, iOS).Поток данных: websocket -> logstash ->...

Reshma Raveendran / 06 марта 2019

0 голосов

1 ответ

Как распараллелить аккумулятор и сохранить его как текстовый файл в Spark?

У меня есть шаблон Аккумулятор, который я хочу разбирать, как мне это сделать? val patternsAcc = sc

Matthew Ariel / 05 марта 2019

1 голос

1 ответ

Преобразование потоковой структуры данных Spark Structure в Pandas DataFrame

У меня установлено приложение Spark Streaming, которое использует тему Kafka, и мне нужно...

anonuser1234 / 05 марта 2019

2 голосов

1 ответ

Выполнение искры в первый раз занимает приблизительно 13 секунд, но второе, а каждый второй раз - 3,5 секунды.

Я использую pyspark и Flask для интерактивной искры в качестве сервисного приложения. Мое...

nevenjovic / 05 марта 2019

0 голосов

0 ответов

Пряжа зарезервирована без всяких причин

Моя проблема в том, что я не понимаю, что представляет собой «зарезервированные vcores», и как он...

magic_banana / 05 марта 2019

1 голос

1 ответ

Почему Apache Spark Master завершает работу, когда Zookeeper завершает сеанс

Как я понимаю, Apache Spark Master можно запустить в режиме высокой доступности с помощью Zookeeper

Lokesh Kumar P / 05 марта 2019

2 голосов

0 ответов

Как установить разрешения в Apache Spark

Я работаю над настройкой, включающей Apache Spark.Проблема сейчас в том, что не всем пользователям...

Thijs / 05 марта 2019

0 голосов

1 ответ

Spark (2.3.1) Ошибка памяти преобразования LDA (java.lang.OutOfMemoryError at java.io.ByteArrayOutputStream.hugeCapacity (ByteArrayOutputStream.java:123)

Я обучил LDA (размерность объекта: 100, итерация: 100, Распределенная версия, мл) с использованием...

Tae-suk Kim / 05 марта 2019

0 голосов

1 ответ

Как использовать createpairedStream в MQTTUtils?

Я не могу использовать MQTTUtils.createPairedStream () в Скале? Как указать список тем в качестве...

Ashok v / 05 марта 2019

0 голосов

0 ответов

метод readSchema в источнике данных v2 (Spark 2.3) и удаление столбцов

Как реализовать метод readSchema () в DataSourceReader в случае обрезки столбцов? Метод readSchema...

Venus / 05 марта 2019

0 голосов

0 ответов

Как размер DataFrame, кэшируемый в памяти, влияет на время обработки в Apache Spark?

Я экспериментировал с тем, какие максимальные необработанные данные я могу кэшировать, не влияя на...

Lalit Lakhotia / 05 марта 2019

0 голосов

1 ответ

Следите за предыдущими значениями строки с дополнительным условием, используя pyspark

Я использую pyspark для генерации фрейма данных, в котором мне нужно обновить столбец 'amt'...

Nabarun Chakraborti / 05 марта 2019

0 голосов

1 ответ

спарк таблица чтения очень медленная при сравнении с улью

У меня есть таблица улья, которая имеет около 2500 столбцов, когда я читаю ее с помощью spark sql...

shiqin zhang / 05 марта 2019