Вопросы с тегом Apache-искра

0 голосов

1 ответ

Модель Spark не видна ОС после сохранения в pyspark

Моя цель - сохранить модель искры и затем сжать ее, но у меня возникли проблемы, потому что os

someguy / 20 октября 2018

0 голосов

0 ответов

java.lang.UnsupportedOperationException: не может быть циклических ссылок в классе бина

При выполнении следующей команды Spark: Dataset<Row> xDF = sparkSession.createDataFrame(xs, X

Akshay M / 20 октября 2018

0 голосов

1 ответ

Лучший вариант для поиска данных в спарк

У меня есть требование, в котором мне нужно прочитать сообщение из темы kafka, выполнить поиск в...

DPEZ / 19 октября 2018

0 голосов

0 ответов

HBase, Java, Spark - чтение и сохранение строк в виде файла Hadoop для экспорта

Позвольте мне предварить это, сказав, что я Крайне плохо знаком с большими данными / искрой / и т.д

Marcus Holden / 19 октября 2018

0 голосов

0 ответов

Как перезаписать файл с помощью pyspark в Azure Spark Cluster

Я использую следующий скрипт для вывода результатов запроса SPARQL в файл в хранилище данных Azure

user485868 / 19 октября 2018

0 голосов

1 ответ

Доступность пакетов при обновлении Anaconda

У нас есть старая версия Anaconda, загруженная в виде пакета на наш кластер Hadoop cloudera, и мы...

sunil kancharlapalli / 18 октября 2018

0 голосов

0 ответов

Создание объекта Spark JavaDStream из объекта потока Java 8

Как видно из заголовка, есть ли способ создать объект Spark org.apache.spark.streaming.api.java

thisisshantzz / 18 октября 2018

0 голосов

2 ответов

Spark Dataframe не добавляет столбцы с нулевыми значениями

Я пытаюсь создать новый столбец, добавив два существующих столбца в моем фрейме данных. Исходный...

Mr.P / 18 октября 2018

0 голосов

0 ответов

Граф не работает на RDD - Python, Pyspark

Проблема: в настоящее время я пытаюсь прочитать текстовый файл с данными Json.Целью этого является...

user3198708 / 18 октября 2018

0 голосов

0 ответов

HBase-Spark: проблема в распределенном сканировании на HBase

Я установил hbase-3.0.0-SNAPSHOT из главного репозитория hbase и пытаюсь запустить...

Abhinav Rawat / 17 октября 2018

0 голосов

1 ответ

pySpark - строка означает исключение нулей

У меня есть искровой фрейм данных, состоящий из> 1200 столбцов, и мне нужно взять среднее число...

pceccon / 17 октября 2018

0 голосов

0 ответов

Ошибка присвоения свойств процесса Spark 1.6

Я сталкиваюсь со следующей проблемой, которую не могу понять.В резюме шеллскрипт запускает основную...

George Fandango / 17 октября 2018

0 голосов

0 ответов

Переименование серверных таблиц Hadoop в pyspark / Spark API в python

for elem in list: final = sqlCtx.read.table('XXX.YYY') interim = final.join(elem...

jayesh / 17 октября 2018

0 голосов

0 ответов

Изменить значение в поле подряд с другим

как изменить значение для каждой строки в кадре данных в spark? for row in df3.rdd.collect(): d=row

Catanzaro / 17 октября 2018

0 голосов

1 ответ

Pyspark - добавить столбцы в dataframe на основе значений из другого dataframe

У меня есть два кадра данных. AA = +---+----+---+-----+-----+ | id1|id2| nr|cell1|cell2|...

Qubix / 17 октября 2018

0 голосов

2 ответов

Как посчитать количество записей с ключом в Spark с помощью Python?

Мои данные показывают пару слов и количество раз, сколько эта пара встречается.Например:...

vivi11130704 / 17 октября 2018

0 голосов

2 ответов

Spark не может найти модуль Python

Я пытаюсь запустить следующий скрипт Python локально, используя команду spark-submit: import sys...

Gustavo / 16 октября 2018

0 голосов

1 ответ

Spark Streaming: Как узнать количество временных меток за день?

Чтение потоковой передачи из темы кафки, где данные имеют метку времени.Эти данные могут иметь...

Himanshu Yadav / 16 октября 2018

0 голосов

1 ответ

PySpark SubQuery: доступ к внешнему столбцу запроса не разрешен

Я пытаюсь переписать запрос SQL в PySpark.Ниже приведен SQL-запрос: SELECT cs.Environment, cs

Naim hammadi / 16 октября 2018

0 голосов

0 ответов

Настройте Eclipse на локальном компьютере (Windows10) для запуска скрипта python-spark на удаленном сервере ip

1) Как настроить Eclipse на моем ПК с Windows10 для запуска скрипта в python / spark на ip...

Catanzaro / 16 октября 2018

0 голосов

1 ответ

Выбор и группировка словарных статей из json Dictionary RDD по ключу с использованием spark python

Я использую spark, кодирование на python У меня есть RDD с искровым содержимым, состоящий из...

Dalcoin / 15 октября 2018

0 голосов

1 ответ

PySpark: сводить столбец в один ряд

Я пытаюсь развернуть простой фрейм данных в pyspark, и я должен что-то упустить.У меня есть...

user3820901 / 15 октября 2018

0 голосов

1 ответ

У меня есть формат даты в м / дд / гггг ч: мм и мм / дд / гггг ч: мм, и я хочу вывод в гггг-мм-дд чч: мм: сс в sparksql.Но я получаю ноль

У меня есть значения, такие как 05.05.2017 0:00 и 21.12.2016 0:00, и я хочу это в формате...

Atif / 15 октября 2018

0 голосов

1 ответ

Ошибка при записи фрейма данных pyspark в базу данных MySQL

Я получаю следующую ошибку: "Caused by: java.lang.NoSuchMethodException: org.apache.spark.sql

raviraju / 15 октября 2018

0 голосов

1 ответ

Поиск наиболее частого значения по строке среди n столбцов в кадре данных Spark

Как найти - по строке - самое частое значение среди 4 двух столбцов в кадре данных Spark (pyspark 2

Patrick / 14 октября 2018