Вопросы с тегом apache-искра

0 голосов

0 ответов

Spark-функция rangeBetween до выполнения условия

У меня есть набор данных в этом формате:...

Himanshu Yadav / 16 мая 2019

0 голосов

0 ответов

Как скопировать данные из Кассандры в эластичный поиск 6.7

Мне нужно скопировать данные с Кассандры в Elastic search.В таблице Кассандры есть почти 5 ТБ...

Akshay / 16 мая 2019

0 голосов

1 ответ

Добавить столбец индекса в Apache Spark Dataset <Row>, используя Java

Приведенный ниже вопрос имеет решение для scala и pyspark, и решение, представленное в этом вопросе...

user0204 / 16 мая 2019

0 голосов

1 ответ

Извлечение значений столбца и сохранение его в массиве

Мне нужно собрать значения столбцов и сохранить их в виде массива из фрейма данных spark. Так же,...

Mitali Soyantar / 16 мая 2019

1 голос

1 ответ

Медианные и квантильные значения в Писпарке

В моем фрейме данных есть столбец возраста.Общее количество строк составляет около 77 миллиардов.Я...

Nikita Agarwal / 16 мая 2019

0 голосов

0 ответов

Kafka искра интеграции

Я создаю одно приложение, в котором я получу потоковые данные (csv) из kafka и запишу их в hdfs....

pikas / 15 мая 2019

0 голосов

1 ответ

Есть ли оптимизированный способ написания SQL-запроса, чтобы найти разницу между двумя наборами данных?

Ниже приведен запрос и пример набора данных (фактический набор данных огромен и находится в HDFS)....

praxnet / 15 мая 2019

0 голосов

0 ответов

Запуск различных кодов искры из командной строки

Итак, я следую за Apache spark, используя руководство по Python от udemy, где он запускает искровые...

Sayan Basu / 15 мая 2019

0 голосов

0 ответов

запустить summary () на большом фрейме данных

У меня есть несколько паркетных файлов, каждый из которых содержит приблизительно 3 миллиона строк...

Tokyo / 15 мая 2019

1 голос

1 ответ

Как исправить ошибку «Выход из контейнера с ненулевым кодом завершения 143» в pyspark

Я вычисляю косинусное сходство между всеми строками фрейма данных с помощью следующего кода: from...

confused_pandas / 14 мая 2019

1 голос

0 ответов

Применить LSH ок. Ближайшие соседи ко всем строкам кадра данных.

Я пытаюсь применить функцию BucketedRandomProjectionLSH model.approxNearestNeighbors(df, key, n) ко...

confused_pandas / 14 мая 2019

0 голосов

0 ответов

Вычислить собственные векторы большой разреженной матрицы?

У меня есть кадр данных Spark: df.show() +--------+--------+------------+ | i | j | value...

Vincent / 14 мая 2019

0 голосов

1 ответ

Как записывать логи в файл, используя apache spark

Я работаю над проектом Maven. Apache spark имеет собственную функцию log4j. Есть ли способ, с...

user812142 / 14 мая 2019

1 голос

2 ответов

PySpark: заполнение столбца на основе последнего вхождения одного из значений в другом столбце

Используя PySpark, я ищу способ заполнения столбца Status на основе значений в столбце Code. Df...

Cowboy_Owl / 13 мая 2019

0 голосов

0 ответов

Принудительно использовать больше исполнителей, по одному на раздел

Spark выполняет слишком много разделов в рамках одной задачи, а не распределяет ее. Мы загружаем...

user1646448 / 13 мая 2019

0 голосов

0 ответов

Как я могу выполнять операции с группами возможно большого DataFrame в PySpark без сбора данных для драйвера?

Я пытаюсь реализовать алгоритм, который я сейчас разрабатываю, используя spark, чтобы, возможно,...

Ric Hard / 13 мая 2019

1 голос

1 ответ

Альтернативы использованию вложенных функций в PySpark mapPartitions при использовании Cython?

У меня есть построчная операция, которую я хочу выполнить на моем фрейме данных, которая принимает...

absolutelydevastated / 13 мая 2019

0 голосов

0 ответов

Как я могу прочитать данные из двух разных кластеров кассандры в одном контексте искры в Java?

Я хочу прочитать данные из двух разных пространств клавиш в Кассандре, которые размещены в разных...

Yash Tandon / 13 мая 2019

0 голосов

2 ответов

Проблема при создании объекта SparkSession с использованием SparkConf

Я новичок в Spark и нуждаюсь в некоторых рекомендациях по приведенной ниже проблеме. Всякий раз,...

ForeverStudent / 11 мая 2019

0 голосов

1 ответ

Фильтрация пользовательской структуры данных в Spark

Я пытаюсь прочитать CSV-файл в JavaRDD. Для этого я написал код ниже: SparkConf conf = new...

JollyRoger / 10 мая 2019

3 голосов

1 ответ

Имитация движущегося окна с пользовательской функцией

Рассмотрим следующий фрейм данных pyspark: df = sqlContext.createDataFrame( [ ('2019-05-08...

Sotos / 10 мая 2019

0 голосов

1 ответ

PySpark: Как создать вычисляемый столбец в PySpark SQL?

Используя PySpark SQL и 3 столбца, я хотел бы создать дополнительный столбец, который разделяет два...

Cowboy_Owl / 10 мая 2019

0 голосов

0 ответов

Как обработать NullType в Spark Dataframe, используя Python?

Я пытаюсь загрузить данные из БД MapR в Spark DF. Тогда я просто пытаюсь экспортировать DF в файлы...

Temp Expt / 10 мая 2019

0 голосов

0 ответов

ошибка: фатальная ошибка была обнаружена средой выполнения Java

У меня есть фрейм данных va с двумя столбцами vertex1 и vertex2.va имеет 6731710209 rows Я хочу...

moudi / 10 мая 2019

0 голосов

1 ответ

Как вычислить сходство между каждыми двумя ключами в фрейме данных pyspark?

У меня есть датафрейм с двумя вершинами столбца и весом ---------------- vertex| weight...

moudi / 10 мая 2019