Вопросы с тегом Apache-искра

0 голосов

1 ответ

Закрытие Spark Streaming Context после первого пакета (попытка получить смещения kafka)

Я пытаюсь получить смещения Кафки для моей работы Spark Batch.После получения смещений я хотел бы...

martinywwan / 11 декабря 2018

0 голосов

1 ответ

Фильтрация Spark Dataframe

Я создал фрейм данных как: ratings = imdb_data.sort('imdbRating')

sulav_lfc / 11 декабря 2018

0 голосов

1 ответ

Как проанализировать столбец, имеющий пользовательский формат json, из плагина DataFrame

У меня есть фрейм данных spark, содержащий столбец json, отформатированный иначе, чем стандартный:...

djWann / 10 декабря 2018

0 голосов

1 ответ

Нет зарегистрированных операций вывода, поэтому в PySpark нечего выполнять

Я пытаюсь интегрировать Spark с Кафкой.У меня есть потребитель Kafka есть данные JSON.Я хочу...

Maws / 10 декабря 2018

0 голосов

1 ответ

PySpark сортировка отсортировано

Пожалуйста, помогите новичку.Обычная база данных для размещения заказа, все в одной таблице. Анализ...

Aleksandr Gr / 10 декабря 2018

0 голосов

1 ответ

Python - Spark - преобразование даты в СДР

Возможно преобразовать элемент RDD в datetime без преобразования RDD в DataFrame? Я пробую много...

Pedro Alves / 10 декабря 2018

0 голосов

1 ответ

Модель Keras: TypeError: невозможно выбрать объекты _thread.lock

У меня проблемы с использованием обученной модели Keras в PySpark.Используются следующие версии...

ScalaBoy / 10 декабря 2018

0 голосов

1 ответ

Обработка огромной (локальной) матрицы в Spark

Итак, я пробую совместную фильтрацию в Spark.Допустим, у меня 1 миллион пользователей, и я...

Ryan / 09 декабря 2018

0 голосов

0 ответов

Как мне разрешить SQL ParseError в PySpark?

Я новичок в PySpark и AWS Sagemaker, использующих ноутбук Jupyter.Я знаю, как писать операторы SQL...

CodeLearner / 09 декабря 2018

0 голосов

0 ответов

Вызов API Facebook Graph в PySpark

Я в новинку с spark, и я использую PySpark для запуска списка пользователей, которые подключились к...

Bramat / 09 декабря 2018

0 голосов

0 ответов

Spark Streaming - определить формат входящего файла

Я работаю над фреймворком, который может принимать входные данные в виде набора файлов,...

Rajat Khandelwal / 08 декабря 2018

0 голосов

1 ответ

Python - Spark - HiveContext - Не удается найти таблицы

Я использую виртуальную машину с Spark 1.6.0 и пытаюсь создать фрейм данных с данными из Hive. У...

Pedro Alves / 08 декабря 2018

0 голосов

2 ответов

Как получить доступ к столбцу из подзапроса во внешнем запросе, используя Spark SQL

В Spark SQL я выполнил запрос select Retailer_country, max(sold) from ( select Retailer_country,...

RAN_0915 / 08 декабря 2018

0 голосов

1 ответ

Как передать линейную комбинацию столбцов в функции агрегации в Pyspark

Как перевести эту часть sql в эквивалент Pyspark syntx: Select sum(a*(1-b)) from MTABLE group by (a...

Mahan / 07 декабря 2018

0 голосов

1 ответ

Spark Структурированная Потоковая пользовательская StateStoreProvide

По умолчанию задание структурированной потоковой передачи использует HDFSStateStoreProvide.Проблема...

Himanshu Yadav / 07 декабря 2018

0 голосов

1 ответ

интеграция pyspark - kafka: отсутствует библиотека lib

Я следую инструкциям Databricks по этому адресу, чтобы начать проект с Kafka: Руководство по...

Andre Carneiro / 07 декабря 2018

0 голосов

0 ответов

Добавление вектора функций tf-idf наиболее эффективным способом в PySpark

Я очень новичок в PySpark.Я пытался реализовать / переписать модель NB-SVM, как описано в этом ядре...

lU5er / 07 декабря 2018

0 голосов

2 ответов

Spark структурированное управление потоковым состоянием

Я узнал, что по умолчанию структурированная потоковая передача поддерживает...

Himanshu Yadav / 06 декабря 2018

0 голосов

1 ответ

Изменить текстовый файл, прочитанный Spark

Я пытаюсь считать слова в нескольких текстовых файлах в кластере Hadoop при использовании Spark.Мне...

Eckersley / 06 декабря 2018

0 голосов

0 ответов

Как десериализовать Java-объекты из kafka с помощью Spark StructuredStream API без Avro или Json?

Я создал тему в kafka под названием «test», в которой есть только один раздел, и он не...

Peter / 06 декабря 2018

0 голосов

1 ответ

Union Row внутри строки данных PySpark Row

Я хочу преобразовать мой Dataframe, который содержит строки внутри строк, в уникальную строку,...

Vinicius Morais / 06 декабря 2018

0 голосов

2 ответов

Улучшение производительности Apache Spark для Redis

У меня есть приложение, которое записывает данные ключа, значения в Redis с помощью Apache Spark

wandermonk / 06 декабря 2018

0 голосов

0 ответов

Apache Spark, выбрал предыдущий последний элемент на основе некоторых условий

У меня есть входные данные, у которых есть id, pid, pname, ppid, которые являются id (можно...

Emil B. / 06 декабря 2018

0 голосов

1 ответ

Как получить значение из структуры в Spark Java?

Мой набор данных ds имеет следующую схему: root |-- id: string (nullable = true) |-- type: string...

ScalaBoy / 05 декабря 2018

0 голосов

0 ответов

Читать XML с помощью PySpark

Я пытаюсь читать XML с помощью PySpark, но у меня есть некоторые проблемы. Я использую этот код:...

Vinicius Morais / 05 декабря 2018