Здравствуйте. Я создал сгруппированный фрейм данных из необработанного фрейма с помощью этой...
Я новичок в Spark и пытаюсь прочитать файл CSV с помощью проекта Java maven, но получаю ошибку...
Что именно происходит, когда я определяю локальную переменную, такую как огромный список сложных...
Согласно документам Без какого-либо вмешательства вновь отправленные задания попадают в пул по...
У меня есть фрейм данных PySpark, который содержит записи для 6 миллионов человек, каждый с...
Работа Spark Streaming - чтение событий из занятой темы кафки. Чтобы понять, сколько данных...
У меня есть фрейм данных с диапазоном дат и некоторыми значениями, я хочу агрегировать по дате и по...
Я хочу создать новые столбцы из значения строк, используя spark sql 2.x и java 8; что-то вроде...
Я пытаюсь запустить файл .py из терминала, используя spark-submit file.py, но он не работает....
Я хотел бы сопоставить функцию foo(x, my_object) с СДР rdd rdd2 = rdd.map(lambda x: foo(x,...
У меня есть следующий тип данных, поступающих от потребителя Kafka (u'0:l1',...
Мне нужно скачать много сжатых файлов, хранящихся на S3, например:...
Я пишу это, так как не могу найти ответ на эту проблему.Я использую PySpark и запускаю скрипт, за...
Я не могу запустить Кафку с искровым потоком. Ниже приведены шаги, которые я предпринял до сих пор:...
У меня есть следующий xml, который сжат в формате avro. Как только я распаковываю это. Это фрейм...
У меня есть несколько фреймов данных, которые выглядят следующим образом. df1:...
Я использую Apache Livy и пробую этот код для его запуска. //App.java public class App { public...
У меня есть один узел Spark на машине A, и я делаю spark-submit на другой машине B, вот как я...
У меня есть данные, которые вы видите ниже в файлах, которые мне регулярно доставляют 2018-11-06 00...
У меня есть Python DataFrame с Spark 1.6. Например DF= ("timestamp","canal",...
from pyspark.sql.functions import * def flatten_df(nested_df): exist = True while exist: flat_cols =...
Я установил Apache Spark в Windows и пытаюсь подключиться к базе данных mysql, но получаю следующее...
Чтобы получить неявные предпочтения определенного набора данных, использовали модель ALS, я передал...
Рассмотрим массивы, как показано здесь. У меня есть 3 набора массивов: Массив 1: C1 C2 C3 1 2 3 9 5...
Я нашел этот билет apache-parquet https://issues.apache.org/jira/browse/PARQUET-686, который...