Вопросы с тегом Apache-искра

0 голосов

1 ответ

добавить столбец из необработанного df в giped df в pyspark

Здравствуйте. Я создал сгруппированный фрейм данных из необработанного фрейма с помощью этой...

yigitozmen / 12 ноября 2018

0 голосов

2 ответов

Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException ошибка

Я новичок в Spark и пытаюсь прочитать файл CSV с помощью проекта Java maven, но получаю ошибку...

VK321 / 12 ноября 2018

0 голосов

0 ответов

Pyspark и локальные переменные внутри UDF

Что именно происходит, когда я определяю локальную переменную, такую как огромный список сложных...

holypriest / 11 ноября 2018

0 голосов

2 ответов

Как включить честный планировщик в PySpark?

Согласно документам Без какого-либо вмешательства вновь отправленные задания попадают в пул по...

FGreg / 10 ноября 2018

0 голосов

1 ответ

Pyspark записать несколько выходов по ключу без раздела

У меня есть фрейм данных PySpark, который содержит записи для 6 миллионов человек, каждый с...

Sal / 09 ноября 2018

0 голосов

1 ответ

Spark Streaming: запись количества строк, прочитанных из темы Кафки

Работа Spark Streaming - чтение событий из занятой темы кафки. Чтобы понять, сколько данных...

Himanshu Yadav / 09 ноября 2018

0 голосов

0 ответов

Сгруппировать до определенной даты в PySpark

У меня есть фрейм данных с диапазоном дат и некоторыми значениями, я хочу агрегировать по дате и по...

Alessandro / 09 ноября 2018

0 голосов

1 ответ

Как создать новые столбцы из значения строки

Я хочу создать новые столбцы из значения строк, используя spark sql 2.x и java 8; что-то вроде...

M-BNCH / 09 ноября 2018

0 голосов

1 ответ

Не могу прочитать файл с "spark-submit" из терминала

Я пытаюсь запустить файл .py из терминала, используя spark-submit file.py, но он не работает....

the_dummy / 09 ноября 2018

0 голосов

0 ответов

Отображение СДР с использованием функции-члена объекта

Я хотел бы сопоставить функцию foo(x, my_object) с СДР rdd rdd2 = rdd.map(lambda x: foo(x,...

Tfovid / 08 ноября 2018

0 голосов

1 ответ

Как уменьшить на два ключа в стриме искры?

У меня есть следующий тип данных, поступающих от потребителя Kafka (u'0:l1',...

Jaskaran Singh Puri / 08 ноября 2018

0 голосов

1 ответ

Как прочитать несколько сжатых файлов из S3 в один RDD с запросом http?

Мне нужно скачать много сжатых файлов, хранящихся на S3, например:...

fra96 / 08 ноября 2018

0 голосов

1 ответ

ПРЕДУПРЕЖДЕНИЕ SparkContext: в одной JVM обнаружено несколько запущенных SparkContexts

Я пишу это, так как не могу найти ответ на эту проблему.Я использую PySpark и запускаю скрипт, за...

CodeGeek123 / 08 ноября 2018

0 голосов

1 ответ

Кафка с искровой интеграционной ошибкой

Я не могу запустить Кафку с искровым потоком. Ниже приведены шаги, которые я предпринял до сих пор:...

Jaskaran Singh Puri / 08 ноября 2018

0 голосов

0 ответов

Синтаксический анализ XML с помощью Spark SQL

У меня есть следующий xml, который сжат в формате avro. Как только я распаковываю это. Это фрейм...

user2844511 / 07 ноября 2018

0 голосов

2 ответов

Pyspark - транспонировать несколько данных

У меня есть несколько фреймов данных, которые выглядят следующим образом. df1:...

user10618703 / 07 ноября 2018

0 голосов

0 ответов

Apache Livy создает исключение NullPointerException при вводе списка <String / Integer>

Я использую Apache Livy и пробую этот код для его запуска. //App.java public class App { public...

rura6502 / 07 ноября 2018

0 голосов

1 ответ

Как вывести пользовательский лог на терминал при выполнении spark-submit?

У меня есть один узел Spark на машине A, и я делаю spark-submit на другой машине B, вот как я...

gfytd / 07 ноября 2018

0 голосов

1 ответ

Pyspark - удаление строк с совпадающими значениями на основе сравнения других значений

У меня есть данные, которые вы видите ниже в файлах, которые мне регулярно доставляют 2018-11-06 00...

eric woodworth / 07 ноября 2018

0 голосов

3 ответов

Как фильтровать строки данных, не содержащие ни одного списка подстрок, используя pyspark

У меня есть Python DataFrame с Spark 1.6. Например DF= ("timestamp","canal",...

User006 / 06 ноября 2018

0 голосов

1 ответ

Свести XML-фрейм данных в искре

from pyspark.sql.functions import * def flatten_df(nested_df): exist = True while exist: flat_cols =...

test acc / 06 ноября 2018

0 голосов

0 ответов

Проблема подключения к MySQL с использованием Apache Spark

Я установил Apache Spark в Windows и пытаюсь подключиться к базе данных mysql, но получаю следующее...

Mad1 / 06 ноября 2018

0 голосов

0 ответов

Тип данных ArrayType (FloatType, false) не поддерживается при передаче в VectorAssembler из UserFactors () совместной фильтрации ALS

Чтобы получить неявные предпочтения определенного набора данных, использовали модель ALS, я передал...

vinodh / 06 ноября 2018

0 голосов

1 ответ

PySpark: динамическое объединение DataFrames с разными столбцами

Рассмотрим массивы, как показано здесь. У меня есть 3 набора массивов: Массив 1: C1 C2 C3 1 2 3 9 5...

Tekie.bigdata / 06 ноября 2018

0 голосов

1 ответ

PySpark Записать двоичную колонку паркета со статистикой (подписано-min-max.enabled)

Я нашел этот билет apache-parquet https://issues.apache.org/jira/browse/PARQUET-686, который...

Nevermore / 05 ноября 2018