Вопросы с тегом апаш-искра

0 голосов

0 ответов

Py4JJavaError: произошла ошибка .spark.python.PythonRDD.collectAndServe Задание прервано

rdd_data = sc.parallelize([ list(r)[2:-1] for r in data.itertuples()]) rdd_data.count() при...

Taymour Niazi / 19 мая 2018

0 голосов

1 ответ

Pyspark - saveAsTable выдает ошибку индекса, в то время как dataframe show () работает отлично

Попытка сохранить фрейм данных в виде таблицы. Я также могу создать фрейм данных и временную...

Aru / 19 мая 2018

0 голосов

0 ответов

Ошибка при загрузке журнала, неверный заголовок LOC

У меня есть следующий pom.xml: - <dependency> <groupId>org.apache.spark</groupId>...

Pinnacle / 19 мая 2018

0 голосов

1 ответ

Spark Scala: как заменить поле в глубоко вложенном фрейме данных

У меня есть DataFrame, который содержит несколько вложенных столбцов.Схема не является статичной и...

nads / 19 мая 2018

0 голосов

2 ответов

Являются ли неудавшиеся исполнители искры поводом для беспокойства?

Я понимаю, что Apache Spark разработан на основе устойчивых структур данных, но возможны ли сбои во...

irbull / 19 мая 2018

0 голосов

0 ответов

Получение "Нет такого файла или каталога" в pyspark2.3 в отношении Python PYSPARK_PYTHON

Мы запустили новый искровой кластер в EMR, на котором работает Spark 2.3.0, и пытаемся выполнить ту...

Jarrel Biscocho / 19 мая 2018

0 голосов

1 ответ

Динамически выбирая столбцы из dataframe, имя столбца будет в переменной

Я не могу получить значения для заданных динамических столбцов.Любая помощь? var dynamicColumns =...

Ramesh / 18 мая 2018

0 голосов

1 ответ

производительность структурированных потоковых метрик?

Попробовав некоторые методы для мониторинга производительности структурированной потоковой передачи...

Jason / 18 мая 2018

0 голосов

0 ответов

Spark Structured Streaming, сбой Executor из-за нехватки памяти из-за накопления трансляции

Наш конвейер ETL использует искровую структурированную потоковую передачу для обогащения входящих...

Saad Hashmi / 18 мая 2018

0 голосов

0 ответов

Как мне управлять выводом на печать в заданиях Spark?

Я хотел бы просмотреть вывод операторов print в моих приложениях Spark, которые используют Python /...

simplycoding / 18 мая 2018

0 голосов

0 ответов

разделяющий многопоточный общий фрейм данных

Я попытался загрузить поток данных из файла avro.Кажется, он не выдает ошибку, но я не могу...

Brian / 18 мая 2018

0 голосов

3 ответов

Как переименовать столбцы в Sparklyr в R?

Это код, который я использовал в R через Spark Cluster, и ошибка также приведена ниже...

Yogesh Kumar / 18 мая 2018

0 голосов

3 ответов

Теперь, когда SpyGlass больше не поддерживается, каков рекомендуемый способ доступа к HBase с...

Ellen Spertus / 18 мая 2018

0 голосов

1 ответ

Использовать рекурсивное глобирование для извлечения документов XML в виде строк в pyspark

Цель состоит в том, чтобы извлечь документы XML с выражением XPath из группы текстовых файлов в...

ghukill / 18 мая 2018

0 голосов

1 ответ

Спарк думает, что я читаю DataFrame из файла Parquet

Spark 2.x здесь.Мой код: val query = "SELECT * FROM some_big_table WHERE something >...

hotmeatballsoup / 18 мая 2018

0 голосов

0 ответов

Как я могу обновить таблицу Hive / Impala из Spark Structured Streaming?

в настоящее время моя структурированная потоковая передача Spark работает следующим образом...

messenjah00 / 18 мая 2018

0 голосов

2 ответов

Почему array_contains принимает столбцы для обоих аргументов в SQL, но не в API набора данных?

Я просматривал вопросы и ответы о array_contains (и isin) методах в StackOverflow и до сих пор не...

Jacek Laskowski / 18 мая 2018

0 голосов

3 ответов

Как объединить таблицу со столбцами 'valid_from' и 'valid_to' в таблицу с отметкой времени?

Я работаю в PySpark и у меня есть таблица, которая содержит данные о продажах для конкретных...

Alexander Engelhardt / 18 мая 2018

0 голосов

1 ответ

Перевести SQL-запрос в искровое преобразование

Я хочу преобразовать свои данные в свою программу Spark-JAVA: это мой SQL-запрос: SELECT ID AS...

tchiko / 18 мая 2018

0 голосов

0 ответов

from_json не является членом объекта org.apache.spark.sql.functions

У меня есть следующий код: - import org.apache.spark.sql.functions.from_json val ds = df

Pinnacle / 18 мая 2018

0 голосов

1 ответ

Нужен ли "Git" для установки Apache Spark?

Я довольно новичок в технологии больших данных и пытаюсь учиться.Я следовал инструкции по установке...

Tyr / 18 мая 2018

0 голосов

2 ответов

получить доступ к карте scala из фрейма данных без использования пользовательских функций

У меня есть Spark (версия 1.6) Dataframe, и я хотел бы добавить столбец со значением, содержащимся...

Giorgio / 18 мая 2018

0 голосов

0 ответов

Спарк производительности не улучшается

Я использую Zeppelin , чтобы читать файлы avro размером в ГБ и иметь записи в миллиардах.Я пробовал...

Waqar Ahmed / 18 мая 2018

0 голосов

1 ответ

Spark SQL: Агрегировать с временным окном

У меня есть данные, упорядоченные по метке времени, со следующей структурой:...

Emanuele Vannacci / 18 мая 2018

0 голосов

1 ответ

Использование RESTful API и преобразование в Dataframe в Apache Spark

Я пытаюсь преобразовать вывод url напрямую из API RESTful в преобразование Dataframe следующим...

Utkarsh Saraf / 18 мая 2018