Вопросы с тегом апаш-искра

0 голосов

1 ответ

scala> val sqlContext = new HiveContext (sc) java.lang.NoClassDefFoundError: org / apache / hadoop / hive / conf / HiveVariableSource

Я пытаюсь запустить свою таблицу кустов доступа через свечу В настоящее время используется CDH5.4 и...

Nawneet / 27 июня 2018

0 голосов

1 ответ

Поезд Случайный Лесной регрессор Модель с Pyspark

Я работаю над проектом анализа настроений, используя данные, извлеченные в формате json,...

jowwel93 / 27 июня 2018

0 голосов

1 ответ

Как определить соглашение об именовании файлов для входящих файлов в Spark

Я получаю файлы в режиме реального времени в формате hdf, и они имеют одинаковое соглашение об...

Gigi / 27 июня 2018

0 голосов

1 ответ

От R до Scala: импорт библиотек

Я пришел из R, и я пытаюсь использовать scala для изучения возможностей, связанных с наукой о...

Marco De Virgilis / 27 июня 2018

0 голосов

1 ответ

фильтр на отметке времени искры не работает в диапазоне, превышающем день

Я работаю с версией Pyspark 2.3.0. я фильтрую фрейм данных в столбце метки времени. | - requestTs:...

sparkly / 27 июня 2018

0 голосов

2 ответов

Как определить искомый путь к файлу потокового файла или имя файла?

Я использую структурированную потоковую обработку для обработки данных из потокового источника...

skyer CC / 27 июня 2018

0 голосов

2 ответов

Как узнать, что мои данные перекошены?

После переноса моих данных (предположим, таблицы) в HDFS я понятия не имею, как реплицируются мои...

Saxena / 27 июня 2018

0 голосов

1 ответ

Структурированная потоковая загрузка JSON конвертировать в столбец вывода является нулевым

JsonData похожа на {reId: "1",ratingFlowId: "1001",workFlowId:"1"}, и...

Amgen Yu / 27 июня 2018

0 голосов

2 ответов

Макс в оконных функциях

Входной DF: id . sub_id . id_created . id_last_modified sub_id_created . lead_ 1 . 10 12:00 7:00...

vikky / 27 июня 2018

0 голосов

2 ответов

Spark read.json не учитывает логические значения в python

Я пытался выполнить пример преобразования строки JSON в фрейм данных в искре, следуя официальной...

harshlal028 / 27 июня 2018

0 голосов

1 ответ

добавить префикс к элементам spark rdd

В моем rdd есть два строковых элемента: «53 45 61», «0 1 2». Я хотел бы сжать и отобразить его...

unchained / 27 июня 2018

0 голосов

2 ответов

Spark создает java.io.IOException: не удалось переименовать при сохранении part-xxxxx.gz.

Новый пользователь Spark здесь. Я извлекаю функции из многих изображений .tif, хранящихся на AWS S3...

bravery / 26 июня 2018

0 голосов

1 ответ

Java String в UDF Проблема для новичков

Сделав это ниже и прочитав материал об объектах-компаньонах, я не могу сказать, что следую ему в...

thebluephantom / 26 июня 2018

0 голосов

1 ответ

Достигнуть параллелизма при сохранении в паркетный файл с разделами

При записи dataframe в parquet с использованием partitionBy: df.write.partitionBy("col1"...

javadba / 26 июня 2018

0 голосов

1 ответ

Firehose JSON -> S3 Parquet -> ETL Spark, ошибка: невозможно определить схему для Parquet

Кажется, что это должно быть легко, как будто это основной вариант использования этого набора...

Narfanator / 26 июня 2018

0 голосов

1 ответ

Запись Spark-структурированного потокового вывода в тему Kafka

У меня есть простое структурированное потоковое приложение, которое просто читает данные из одной...

cscan / 26 июня 2018

0 голосов

0 ответов

Искристая структурированная потоковая передача Kafka Avro на Hbase

Как описано в Spark Structured Streaming с интеграцией Hbase , мне интересно записывать данные в...

mefrill / 26 июня 2018

0 голосов

2 ответов

Преобразовать столбец структуры в список Scala

У меня есть столбец структуры в моем фрейме данных, и я хочу собрать его как список Scala. case...

mikeL / 26 июня 2018

0 голосов

1 ответ

Преобразование org.apache.spark.mllib.linalg.Matrix для запуска фрейма данных в Scala

У меня есть входной фрейм данных input_df как: +---------------+--------------------+...

PRIYA M / 26 июня 2018

0 голосов

1 ответ

NoHostAvailableException (хост не был опробован) с использованием Spark Cassandra Connector

У меня проблема с соединителем DataStax Spark для Cassandra. Мое приложение содержит операцию Spark...

CalmAmity / 26 июня 2018

0 голосов

0 ответов

как загрузить файл CSV, если несколько столбцов содержат несколько запятых между ними с помощью sparksql 1.6v

как загрузить файл CSV, если несколько столбцов содержат несколько запятых между ними с...

Raj Kamal / 26 июня 2018

0 голосов

2 ответов

Задание потоковой передачи Spark изменяет статус на ПРИНЯТО через несколько дней ПРИНЯТО

У меня давно запущено искровое потоковое задание, которое читает с кафки. Это задание запускается...

reemas / 26 июня 2018

0 голосов

1 ответ

Spark Dataframe: пользовательская функция в окне

У меня есть DataFrame df со столбцом, который содержит значения Double. Мне удалось вычислить...

Nakeuh / 26 июня 2018

0 голосов

0 ответов

com.couchbase.client.java.error.InvalidPasswordException: пароли для сегмента "beer-sample" не совпадают

Я соединяю базу Couch со Scala через оболочку scala. Однако возникает следующая ошибка. (Искра: 2,2...

백진영 / 26 июня 2018

0 голосов

2 ответов

Как уменьшить несколько строковых значений до предопределенных категорий в столбце

Я хотел бы уменьшить значения определенного столбца в кадре данных на основе предварительно...

Andreyn / 26 июня 2018