Вопросы с тегом Apache-искра

0 голосов

0 ответов

StackOverflowError в объекте SemanticGraph

Я запускаю синтаксический анализатор нейронных зависимостей из CoreNLP 3.8.0 с использованием...

Belphegor / 08 июня 2018

0 голосов

1 ответ

Spark кластер на EC2 использует только один узел

Я использую flintrock для запуска кластера Spark с 8 + 1 узлами на Amazon EC2. > flintrock...

clstaudt / 08 июня 2018

0 голосов

0 ответов

как зарегистрировать функцию python в классе как udf из sparksql

Вот моя проблема: У меня есть класс с некоторыми функциями для обработки nlp, а также я должен...

Junwen Xie / 08 июня 2018

0 голосов

1 ответ

Как скопировать файл из HDFS в локальную файловую систему узлов кластера, в кластере EMR, используя Java API,

В кластере EMR, используя java api, как скопировать файл из HDFS в локальную файловую систему узлов...

Rajesh Goel / 08 июня 2018

0 голосов

2 ответов

PySpark Boolean Pivot

У меня есть некоторые данные, имитирующие следующую структуру: rdd = sc.parallelize( [ (0,1), (0,5)...

dandroid / 07 июня 2018

0 голосов

2 ответов

чтение текстового файла из Amazon S3 с помощью PySpark

Я пытаюсь получить кластер Spark для чтения источников данных из облачного хранилища Amazon S3.Это...

clstaudt / 07 июня 2018

0 голосов

0 ответов

Ошибка ParseException от apache spark sql

У меня есть следующий код Spark SQL: select f.typ_fact c case when month(f.dat_valid) in (1,2,3)...

Arnault / 07 июня 2018

0 голосов

1 ответ

Как распределить пул многопроцессорности среди рабочих Spark

Я пытаюсь использовать многопроцессорную обработку для чтения 100 CSV-файлов параллельно (и...

Paul Bendevis / 06 июня 2018

0 голосов

1 ответ

java.lang.ClassNotFoundException: org.spark_project.guava.collect.MapMaker

Я пытаюсь интегрировать apache spark с проектом весенней загрузки cassandra.Но при запуске проекта...

shivam gupta / 06 июня 2018

0 голосов

1 ответ

Невозможно открыть Pyspark Shell в Linux

Я запускаю ./bin/pyspark at, чтобы открыть оболочку pyspark, но получаю следующую ошибку:

DT_NoHope / 06 июня 2018

0 голосов

0 ответов

Как написать поток на Amazon S3, используя структурированный потоковый Pyspark?

Я не получаю данные в мое ведро s3 и не получаю никакой ошибки.Я работаю с Spark 2.3.0 и Python.По...

Eric Bellet / 06 июня 2018

0 голосов

1 ответ

Конвертировать RDD в Dataframe в FPGrowth Pyspark

Я обнаружил ошибку, когда сделал DataFrame из RDD. from pyspark.ml.fpm import FPGrowth sogou = sc

Chen / 06 июня 2018

0 голосов

1 ответ

Spark Java DataFrame сумма и удалить дубликаты на основе столбцов

У меня есть фрейм данных искры, как показано ниже: INPUT...

Curious one / 06 июня 2018

0 голосов

1 ответ

Сводные значения к существующим столбцам в фрейме данных PySpark

У меня есть фрейм данных, как показано ниже в pyspark. +---+-------------+----+ | id| device| val|...

User12345 / 05 июня 2018

0 голосов

0 ответов

Обновление таблицы MySQL с помощью pyspark

Я знаю, что невозможно просто обновить таблицу MySQL с помощью Spark, но я пытался что-то избежать,...

Gaspar Avit Ferrero / 05 июня 2018

0 голосов

2 ответов

Ошибка разделения строки

Я пытаюсь разбить каждый элемент JavaRDD на пробел, кроме части в кавычках и [].Я использую...

Amber / 05 июня 2018

0 голосов

1 ответ

Какой лучший эффективный формат для хранения больших SparseMatrix в PySpark

У меня есть pyspark.mllib.linalg.SparseMatrix с 100k строк и 20M столбцов.Каков наилучший формат...

Ehsan Sadr / 05 июня 2018

0 голосов

1 ответ

Преобразовать строку в JavaRDD <String>

Я хочу сделать некоторые вычисления для каждого текстового файла из каталога, а затем использовать...

pawelen / 05 июня 2018

0 голосов

0 ответов

Как прочитать файлы bz2 в dataframes, используя pyspark?

Я могу прочитать файл json в фрейм данных в Pyspark, используя spark = SparkSession.builder

Leonius / 05 июня 2018

0 голосов

1 ответ

Spark Структурированная потоковая передача с источником RabbitMQ

Я пытаюсь написать собственный получатель для Structured Streaming, который будет принимать...

ram / 04 июня 2018

0 голосов

2 ответов

Удаление нескольких столбцов Spark DataFrame в Java

Я использую Spark 1.5.3, я попытался разделить четные и нечетные столбцы в кадре данных spark,...

Mostwanted Mani / 04 июня 2018

0 голосов

1 ответ

Как преобразовать элемент массива в Map [String, String] в spark 2.2 с Java

Я использую spark 2.2 и java 1.8 образец XML-формата - <?xml version="1.0"...

Sekhar / 03 июня 2018

0 голосов

1 ответ

ожидаемые нулевые аргументы для построения ClassDict (для pyspark.ml.linalg.SparseVector)

Я работаю над созданием модели LDA. Вот что я сделал до сих пор - создал униграмму и преобразовал...

lpt / 03 июня 2018

0 голосов

2 ответов

Pentaho или Spark быстрее, чем Java?

Пожалуйста, помогите мне здесь.Технический парень сказал мне, что Pentaho и Apache Spark работают...

Abdul Rahman / 02 июня 2018

0 голосов

1 ответ

зажечь код Java для Python

Я получаю часть проверенных данных, например: from pyspark.sql.types import DateType import pyspark...

Leon / 02 июня 2018