Вопросы с тегом apache-искра

0 голосов

0 ответов

Как подключиться к удаленной БД MapR с помощью PySpark?

У меня есть 2 сервера, на которых установлен и настроен MapR.Я использую Py-Spark для...

Temp Expt / 15 февраля 2019

0 голосов

0 ответов

Как прочитать файл последовательности, созданный заданием Java MR в Pyspark?

У меня есть задание MR, которое создает файл последовательности с ключом в качестве экземпляра...

MozenRath / 15 февраля 2019

0 голосов

1 ответ

Невозможно прочитать данные из таблицы Parquet Hive через Spark 1.6

Я пытаюсь прочитать данные из таблицы улья, хранящиеся в формате Parquet.Я использую распределение...

Partha / 15 февраля 2019

0 голосов

0 ответов

Запрос таблицы Hbase в Pyspark с использованием Connector

Я боролся с тем, как сделать запрос pyspark, который извлекает данные из созданной мною таблицы...

CadenJoe / 15 февраля 2019

0 голосов

0 ответов

Запустить Spark-Submit - Ошибка: не удалось найти или загрузить основной класс org.apache.spark.launcher.Main

Я пытаюсь выполнить spark-submit ***.py , затем я получил Ошибка: не удалось найти или загрузить...

Yu-Ting LIN / 14 февраля 2019

0 голосов

0 ответов

Как использовать пользовательский разделитель в методе pyspark sparkContext textFile

Я пытаюсь прочитать текстовый файл и разделить его на предложения с помощью спарка.Для этого мне...

user415612 / 14 февраля 2019

0 голосов

1 ответ

Pyspark 2.4.0, чтение авро с кафки с потоком чтения - Python

Я пытаюсь читать авро-сообщения от Кафки, используя PySpark 2.4.0. Внешний модуль spark-avro может...

Panagiotis Fytas / 14 февраля 2019

0 голосов

0 ответов

Spark SQL: Как использовать функцию запаздывания со сложным условием?

У меня есть это требование для сравнения метки времени текущей строки с предыдущей строкой кадра...

Himanshu Yadav / 14 февраля 2019

0 голосов

2 ответов

Как программно управлять SparkApplication с помощью клиента python kubernetes?

Я бы хотел отправить SparkApplication в кластер Kubernetes программно из python. Определение...

hansonhill / 14 февраля 2019

0 голосов

1 ответ

PySpark drop-dupes основан на условии столбца

Все еще новичок в Spark, и я пытаюсь сделать это окончательное преобразование максимально чистым и...

DataDog / 14 февраля 2019

0 голосов

1 ответ

Объект SparkSession не имеет атрибута serializer при оценке классификатора в Pyspark.

Я использую Apache spark в пакетном режиме.Я настроил весь конвейер, который преобразует текст в...

Cobra / 14 февраля 2019

0 голосов

1 ответ

Informix JDBC PySpark считывает результаты в именах столбцов как значения столбцов

Я читаю данные из различных источников JDBC, используя метод чтения PySpark.JDBC читает из Teradata...

Hein du Plessis / 13 февраля 2019

0 голосов

1 ответ

pyspark логическое соединение для vertica sql

spark1.6, извлечение данных из моей базы данных Vertica для работы с ним, приведенный ниже запрос...

Mahmoud Odeh / 13 февраля 2019

0 голосов

1 ответ

Извлеките zip-файл в HDFS, используя Java

Я использую Java-Spark, я получаю сообщение из темы Кафки, которое указывает путь к zip-файлу, я...

Ya Ko / 13 февраля 2019

0 голосов

0 ответов

Spark SQL: эффективное использование функции Window

Исходя из различных критериев, я должен сравнить временную метку текущей строки с предыдущей...

Himanshu Yadav / 13 февраля 2019

0 голосов

1 ответ

Spark Java редактировать данные в столбце

Я бы хотел перебрать содержимое столбца в искре DataFrame и исправить данные в ячейке, если она...

JBoy / 13 февраля 2019

0 голосов

1 ответ

Как загрузить CSV-файл в pyspark DataFrame

Как я могу изменить файл csv на DataFrame. значения csv - country,2015,2016,2017,2018,2019 Norway,4

vengatesh aravinth / 13 февраля 2019

0 голосов

1 ответ

Использование иерархических запросов в Apache SPARK

Я пытаюсь выполнить ниже SQL-запрос в SPARK, используя Java: Dataset<Row> perIDDf =...

A Learner / 13 февраля 2019

0 голосов

1 ответ

Как создать CassandraTableScanJavaRDD без подключения к Cassandra?

Я пытаюсь выполнить юнит-тест моего метода, который подключается к Cassandra и выполняет оператор...

raizsh / 13 февраля 2019

0 голосов

1 ответ

Как рассчитать ByValue в Pyspark с дубликатом ключа?

Я пытаюсь получить все уникальные значения СДР и соответствующие им числа вхождений.Я пытался...

Rahul / 13 февраля 2019

0 голосов

1 ответ

Как удалить числа из строки, используя RegexTokenizer PySpark?

Я хочу удалить числа с 5 или более цифрами из столбца DataFrame, используя RegexTokenizer PySpark

huppert / 13 февраля 2019

0 голосов

1 ответ

Как выполнить запрос к Elasticsearch, используя PySpark, не запрашивая каждый узел?

Моя конечная цель - использовать PySpark для эффективной индексации большого объема данных в...

LaserJesus / 13 февраля 2019

0 голосов

0 ответов

Создание нескольких фреймов данных с использованием цикла for в Java Spark

Я пытаюсь создать новые кадры данных, используя столбцы исходного кадра данных (df0). Я пытался...

Aziz Azizos / 13 февраля 2019

0 голосов

2 ответов

Как записать логический тип TIMESTAMP (INT96) в паркет, используя ParquetWriter?

У меня есть инструмент, который использует org.apache.parquet.hadoop.ParquetWriter для...

James Wierzba / 12 февраля 2019

0 голосов

0 ответов

pysparkshell работает, но не python -> pyspark

У меня проблема с pyspark.Я могу запустить свой кластер, когда я загружаю pysparkshell из командной...

plankton / 12 февраля 2019