Вопросы с тегом апаша-искра

0 голосов

0 ответов

pyspark rdd объединяет несколько файлов json в один rdd

Я пытаюсь объединить данные двух файлов в один rdd. Допустим, у меня есть два файла file1.txt,...

Patel Jay / 07 ноября 2019

0 голосов

1 ответ

Что происходит в Pyspark, когда вы группируете тот же столбец, что и в partitionBy?

У меня есть набор данных, который был разбит на столбец ID и записан на диск. Это приводит к тому,...

cgreen / 07 ноября 2019

0 голосов

0 ответов

Spark: распараллелить URL-адреса hdfs с очевидностью локальности данных

У меня есть список URL-адресов ZIP-файлов HDFS, и я хочу открыть каждый файл внутри функции карты...

gunturu mahesh / 07 ноября 2019

0 голосов

0 ответов

spark: создание локального режима SparkSession с добавлением локального jar

Я пытаюсь создать свечу на местном уровне. Я хотел бы передать ему местоположение банки. Я не могу...

Brian / 07 ноября 2019

0 голосов

0 ответов

В работе Pyspark возможна проблема с ограничением ресурсов

Я работаю с клеем в aws. Он в основном запускает код pyspark внутри клея aws. Работа выполняет...

user3476463 / 06 ноября 2019

1 голос

0 ответов

Pyspark SQL Pandas Grouped Map без GroupBy?

У меня есть набор данных, который я хочу отобразить с использованием нескольких Pyspark SQL...

Dave / 06 ноября 2019

0 голосов

1 ответ

Ошибка при использовании Livy для отправки заданий Spark: пользователь не инициализировал контекст Spark

Я очень новичок в Spark и следую этому документу, чтобы отправить задания Spark через Livy...

Chase / 06 ноября 2019

0 голосов

0 ответов

Spark / Scala udf должен возвращать список кортежей, как мешок в Pig

У меня есть справочная таблица, которая является составным ключом => (столбец, значение). Учитывая...

Patssay / 06 ноября 2019

0 голосов

1 ответ

Как получить этот вид подмножества из DataFrame в Pyspark?

Например, у меня есть следующий DataFrame +-----+----+------+ | idx | id | type |...

TrW236 / 06 ноября 2019

0 голосов

0 ответов

Пропуск воздушного потока с прошлой датой окончания не запускает расписание

У меня есть знак потока воздуха со следующей конфигурацией: { 'start_date': datetime(2017...

DarkKnight / 06 ноября 2019

0 голосов

0 ответов

сбой команды spark-submit для spark-sql_2.11-2.4.0-cdh6.2.1.jar

Команда отправки Spark (см. Пример команды в конце) работала с spark-sql_2.11-2.4.0-cdh6.2.0.jar,...

Kunal Ghosh / 06 ноября 2019

1 голос

0 ответов

NoSuchMethodError при попытке запроса данных на HBase из Spark

Я пытаюсь запросить данные, загруженные в таблицу HBase, используя SparkSQL / DataFrames. Мой...

AGL / 06 ноября 2019

0 голосов

3 ответов

У меня есть DataFrame в две строки и несколько столбцов, как перенести в два столбца и несколько строк？

У меня есть искра DataFrame, подобная этой: +---+---+---+---+---+---+---+ | f1| f2| f3| f4| f5| f6|...

wenjiangFu / 06 ноября 2019

1 голос

2 ответов

Добавьте одинарные кавычки в значения столбца dataFrame

DataFrame содержит столбец QUALIFY со значениями, как показано ниже. QUALIFY =================...

Aditya / 06 ноября 2019

0 голосов

1 ответ

Вспомните Doc2Vec в Spark и введите векторы для машинного обучения с помощью логической регрессии.

Я побежал к Генсиму, чтобы обучить Doc2vec из корпуса. Мне нужно извлечь вектор каждого документа в...

Ivan Lee / 06 ноября 2019

0 голосов

1 ответ

Количество разделений в наборе данных превышает предел разделения набора данных, Dremio + Hive + Spark

У нас есть стек, состоящий из Hadoop + Hive + Spark + Dremio, поскольку Spark записывает много...

Luis Leal / 05 ноября 2019

0 голосов

0 ответов

Перебирайте Spark Dataframe, сохраняйте результаты и используйте результаты на предыдущей итерации

Как я могу пройти через искровой фрейм данных, применить бизнес-логику и использовать результаты в...

user3783961 / 05 ноября 2019

0 голосов

1 ответ

Почему драйвер pyspark не загружает файлы jar в локальное хранилище?

Я использую spark-on-k8s-operator для развертывания Spark 2.4.4 в Kubernetes. Однако я почти уверен...

kingledion / 05 ноября 2019

0 голосов

1 ответ

createOrReplaceTempView не является членом org.apache.spark.rdd.RDD

Я использую hadoop 2.7.2, hbase 1.4.9, spark 2.2.0, scala 2.11.8 и java 1.8 . Я запускаю эту...

el abed houssem / 05 ноября 2019

0 голосов

0 ответов

Ucanaccess несовместимый тип данных в преобразовании: от типа SQL CHARACTER до java.lang.Double

Мой код следующий: val optionMap = Map( "driver" -> "net.ucanaccess.jdbc

Виталий Олегович / 05 ноября 2019

0 голосов

1 ответ

PySpark & Tensorflow - фиктивные строковые данные кодирования

Я хочу фиктивно закодировать (или аналогичные) данные, чтобы передать их Keras. Сейчас я...

LaSul / 05 ноября 2019

0 голосов

1 ответ

ошибка не найдена значение искра импорт spark.implicits._ import spark.sql

Я использую hadoop 2.7.2, hbase 1.4.9, spark 2.2.0, scala 2.11.8 и java 1.8 на кластере hadoop ,...

el abed houssem / 05 ноября 2019

0 голосов

2 ответов

Spark executor отправляет результат на произвольный порт, хотя все порты явно настроены

Я пытаюсь запустить искровую работу с PySpark через ноутбук Jupyter, работающий в Docker. Рабочие...

Aleksandr Sosenko / 05 ноября 2019

0 голосов

0 ответов

Код Pyspark для чтения из таблицы Cassandra занимает почти 14 минут, чтобы прочитать данные 6 ГБ.

Spark cluster Я использую 4 ядра и 4 экземпляра исполнителя. Размер данных таблицы Кассандры после...

anvy elizabeth / 05 ноября 2019

4 голосов

0 ответов

Выдвиньте существующую локальную ошибку таблицы (окна): InvalidRegionNumberException затем IllegalArgumentException

Я хочу перенести данные в уже существующую таблицу, семейство из одного столбца, без записей. Я...

wipman / 05 ноября 2019