Я пытаюсь использовать Word2Vec в фрейме данных панд в течение нескольких дней.Решил использовать...
Я читал об искомых предикатах spark и сокращении разделов, чтобы понять объем прочитанных данных.У...
Я хочу обработать поток искр, который исходит от Кафки.Я использую lowerByKeyAndWindow для...
Я новичок в Spark 2.4 с Java 8. Я получил ответ на мой последний подобный запрос.Но если я добавлю...
У меня ниже JSON-файл (подробности) в hadoop.Я могу читать этот файл с hd fs с помощью SQL Context...
У меня есть таблица в Hive, которая имеет схему: root |-- startdate: string (nullable = true) |--...
Мне нужно хранить и извлекать смещения Кафки из задания Spark Dataframe в пакетном режиме ,...
Я часто использую spark-shell и часто это для запуска sql запросов к базе данных.И единственный...
Python-скрипт использует Pyspark Library для обработки данных.Он возвращает имя файла JSON вместе...
Мне нужно визуализировать некоторые карты в Zeppelin через spark и JS (угловой интерпретатор в...
Я пишу DStream в Elasticsearch, используя соединитель Elasticsearch-Hadoop.По этой ссылке вы можете...
Я использую Spark 2.3 (HDP 2.3.0.2.6.5.108-1) и Spark Streaming (JavaInputDStream). Я пишу тест...
Мы используем AWS EMR для запуска искровых заданий.Из ганглиев мы видим, что использование памяти...
Когда фрейм данных разделяется и снова объединяется с различными столбцами, сколько и как создаются...
У меня есть фрейм данных, показанный ниже в «Текущем фрейме данных» после потоковой передачи из...
У меня есть такая таблица: Clients City Timestamp 1 NY 0 1 WDC 10 1 NY 11 2 NY 20 2 WDC 15 В...
Когда я пытаюсь понять разницу между coalesce () и repartition (), я понял, что coalesce может...
У меня есть данные в фрейме данных, которые были получены из Azure EventHub.Затем я преобразовываю...
До сих пор мне удавалось найти примеры, где вы можете сканировать / запрашивать HBase либо по...
Простой вопрос, я всегда читал об использовании Kafka с потоковой передачей искры...
Я пытаюсь прочитать тему Кафки в моем пакетном задании Spark и опубликовать в другой теме.Я не...
Я выставлю свою проблему на основе исходного кадра данных и того, которого я хочу достичь: val...
Я хочу написать Spark Dataframe в формате Parquet.snappy в HDFS.В настоящее время он создает по...
Требуется получить StructType (имя поля и DataType) иерархии схемы (вложенная схема) и поместить...
В Java у меня есть набор данных Spark (Spark Structured Streaming) со столбцом типа java.util