Вопросы с тегом апаша-искра

0 голосов

2 ответов

Разница между однопроходными и многопроходными вычислениями

Я читаю статью об Apache Spark и наткнулся на следующее предложение: "Hadoop как технология...

Psychotechnopath / 16 октября 2019

1 голос

1 ответ

Spark 2.4.4 Конфигурация Avro Pyspark Shell

Мне кажется, я следую правильной документации , чтобы заставить pyspark записывать файлы avro. Я...

Paul Bendevis / 16 октября 2019

0 голосов

1 ответ

Таблица усечения pyspark без перезаписи

Мне нужно обрезать таблицу перед вставкой новых данных. У меня есть следующий код для вставки: df

WiseStrawberry / 15 октября 2019

0 голосов

1 ответ

получить количество отличных значений для нескольких столбцов из Dataframe, используя Spark и Java8

Я хочу получить количество отличных значений для нескольких столбцов из Dataframe с использованием...

Tamil / 15 октября 2019

0 голосов

1 ответ

Pyspark - функция UDF сразу после создания столбца

Я пытаюсь применить функцию UDF сразу после создания столбца. Но у меня возникла проблема: Cannot...

LaSul / 15 октября 2019

0 голосов

2 ответов

Является ли команда load в spark действием или преобразованием?

df = spark.read.format('csv').load('...') Насколько я понимаю, load является...

j raj / 15 октября 2019

0 голосов

1 ответ

Spark на Kubernetes: как работать с отсутствующей папкой Config

Я пытаюсь запустить spark в кластере kubernetes, как описано здесь https://spark.apache

Itsmedenise / 15 октября 2019

1 голос

0 ответов

Самый быстрый способ запуска операций с колонками в Spark

Я хочу извлечь некоторые статистические измерения из больших Spark DataFrames (приблизительно 250K...

K.O.T. / 15 октября 2019

0 голосов

1 ответ

Почему код для инициализации Spark Context сильно различается в разных источниках?

Я знаю, что мне нужно инициализировать Spark Context для создания устойчивых распределенных наборов...

Iterator516 / 15 октября 2019

1 голос

0 ответов

Добавление .cache () к (Py) кадру данных Spark игнорирует .limit () и кэширует полный кадр данных

Я пишу конвейер для очень большого кадра данных. Чтобы быстро создать прототип, я пытаюсь...

Bram van den Akker / 14 октября 2019

0 голосов

1 ответ

Где я могу найти файлы .py, которые нужно добавить в мою иск-отправку?

Я работаю над edgenode, где некоторые библиотеки, такие как pandas, sqlalchemy, которые я установил...

Samadi Salahedine / 14 октября 2019

0 голосов

0 ответов

Ошибка после запуска задания pyspark на Databricks из локального кода и использования plotly

Я подключился к кластеру Databricks (python 3.5) через код (python 3.5) и выполняю задание в...

Beckenbaur93 / 14 октября 2019

4 голосов

1 ответ

Неподдерживаемый токен аутентификации, схема = 'нет' разрешена, только когда аутентификация отключена: {схема = 'нет'} - Ошибка аутентификации Neo4j

Я пытаюсь подключиться к Neo4j от Spark, используя neo4j-spark-connector. Я сталкиваюсь с проблемой...

Mitaksh Gupta / 14 октября 2019

0 голосов

1 ответ

PySpark - как обновить Dataframe с помощью объединения?

У меня есть фрейм данных a: id,value 1,11 2,22 3,33 И еще один фрейм данных b: id,value 1,123 3,345...

Joe / 14 октября 2019

0 голосов

0 ответов

Искра Mongodb: Ошибка - java.lang.NoClassDefFoundError: com / mongodb / MongoDriverInformation

Я работаю со Spark-shell, используя Mongo-spark-коннектор для чтения / записи данных в MongoDB,...

Bharath Reddy / 14 октября 2019

0 голосов

0 ответов

почему Python Spark медленный при использовании для цикла

Я изучаю pyspark из программы ранжирования страниц. Но когда я использую цикл for для вычисления,...

sappy / 14 октября 2019

0 голосов

0 ответов

Что означает «линейная обработка» в MapReduce? Чем он отличается от метода обработки данных Spark?

Я знаю, что MapReduce использует линейную обработку, но что на самом деле означает «линейная» часть

Iterator516 / 14 октября 2019

0 голосов

2 ответов

Как выровнять элементы в списке списков, используя Pyspark?

I/p: l=[[1,2,3],[3,4]] O/p: [[1,4,9],[9,16]] Как я могу достичь выше, используя PySpark? Я пытался...

Anil Patil / 13 октября 2019

0 голосов

0 ответов

Разработка внешнего шаблона снежинки из значений схемы из S3 с использованием PySpark

У меня есть ситуация, когда мне нужно выбрать файл из папки s3 по папке, загрузить схему и...

ADITYA SHARMA / 13 октября 2019

0 голосов

1 ответ

Как сохранить искровой DF в виде файла CSV?

У меня есть некоторый код Python, который просматривает файлы и создает фрейм данных (DF). Кроме...

asher / 13 октября 2019

0 голосов

0 ответов

Как импортировать графические рамки на кирпичи данных

Я пытаюсь использовать графические функции для блоков данных, а руководство на сайте блоков данных...

ZsoltF / 13 октября 2019

0 голосов

0 ответов

org.apache.spark.sql.AnalysisException: не удается разрешить «возраст» заданных входных столбцов: [имя, возраст];

Spark Версия: группа компиляции: 'org.apache.spark', имя: 'spark-core_2.12', версия: '2.4.4',...

vladtax / 13 октября 2019

1 голос

3 ответов

Фильтрация данных текстового файла в виде столбцов в pyspark rdd и dataframe

У меня есть данные, подобные приведенным ниже: It has survived not only five centuries, but also...

RushHour / 13 октября 2019

0 голосов

0 ответов

Искровая трубаRDD против ML

Что меня удивило после прочтения о RDD в spark pipe, так это то, что мы можем выполнить любой код...

pratik rudra / 12 октября 2019

0 голосов

1 ответ

Подсчитать итоговые значения в каждой строке фрейма данных, используя pyspark

У меня есть столбец во фрейме данных, в каждой строке которого указан список дат, разделенных...

360p / 12 октября 2019