Вопросы с тегом hadoop

0 голосов

1 ответ

Почему «псевдоним счетчика групп» не создает новый столбец?

У меня есть следующий код: def getResults(df: DataFrame) : Dataset[Row] = { df

Miguel A. Friginal / 08 ноября 2018

0 голосов

1 ответ

Когда и где происходит расщепление?

Например, у меня есть файл 1 Гб в HDFS, как 2018-10-10 12:30 EVENT INFORMATION 2018-10-10 12:35...

Вадим Парафенюк / 08 ноября 2018

0 голосов

0 ответов

Как определить порт HDFS для использования с установкой HBase + Hadoop

Я пытаюсь заставить HBase работать с Hadoop. Я могу заставить HBase работать без Hadoop , установив...

c z / 08 ноября 2018

0 голосов

1 ответ

Рейнджер и Керберос

У меня есть кластер из трех узлов, на котором установлены Kerberos и Ranger. Я просто немного...

Mat / 08 ноября 2018

0 голосов

1 ответ

RTRIM с 2 аргументами

Добрый день, Можете ли вы дать мне совет, как я могу заменить RTRIM(path,'?') с...

Denis Plotnikov / 08 ноября 2018

0 голосов

0 ответов

Получить все регионы HBase, избегая переподключения клиентов Zookeeper

для требований проекта мне нужно извлечь метаданные HBase для всех регионов. Именно для каждого...

Giorgio / 08 ноября 2018

0 голосов

0 ответов

MultiOuputFormat в mapreduce пропускает несколько записей при записи в вывод

Я просто использую приведенный ниже код для записи в 2 разных выхода org.apache.hadoop.mapreduce

Hadooplearner / 08 ноября 2018

0 голосов

0 ответов

Обработка данных общего сканирования с ограниченным хранилищем

В рамках моего текущего проекта мне нужно обработать 19 ТБ данных, размещенных на Amazon S3 (...

maestromusica / 07 ноября 2018

0 голосов

1 ответ

Преобразовать массив в карту

У меня есть таблица с таким столбцом, как [{"key":"e"...

John Constantine / 07 ноября 2018

0 голосов

1 ответ

SQOOP IMPORT в формате avro завершается неудачно

SQOOP IMPORT в формате avro завершается с ошибкой ниже. Пожалуйста помоги. Код указан внизу....

baidya s / 07 ноября 2018

0 голосов

0 ответов

Почему метка времени SECONDARY stream занимает так много места в файле ORC?

У меня есть файл ORC со следующей структурой: Type: struct<event_ts:timestamp...

wildraid / 07 ноября 2018

0 голосов

0 ответов

Почему мне нужно выполнить hadoop как sudo?

Я хочу попрактиковаться в hadoop в псевдораспределенном режиме, поэтому я следовал документации...

JRAData / 07 ноября 2018

0 голосов

1 ответ

spark - извлечение элементов из RDD [Row] при чтении таблицы Hive в Spark

Я собирался прочитать таблицу Hive в spark, используя scala, извлечь из нее некоторые / все поля и...

xy.Z / 07 ноября 2018

0 голосов

1 ответ

Дженкинс как JobServer на Hadoop EdgeNode

Я не уверен, что кто-то может мне помочь, но я попробую. Я запускаю Jenkins на Openshift-Cluster,...

Alex / 07 ноября 2018

0 голосов

0 ответов

Apache Sqoop версия 1.4.7 совместимая версия

Apache Sqoop Версия 1.4.7. Совместима ли эта версия с версией Hadoop 3.1.1.

user9893492 / 07 ноября 2018

0 голосов

0 ответов

Невозможно запустить искровое дерево принятия решений в процессе быстрой загрузки

Я работаю на windows 8.1, Hadoop 2.6, spark 1.6, hive и rapidminer 9.0 версии. У меня есть процесс,...

asma / 07 ноября 2018

0 голосов

1 ответ

Как я могу записать в HDFS из Spark, чтобы ускорить доступ к этим данным?

Предположим, что я не такой инструмент, как Hive или HBase (Spark все равно не может использовать...

AlexScalar / 07 ноября 2018

0 голосов

0 ответов

Невозможно записать в HDFS через Java: файл ... может быть записан только в 0 из 1 узлов minReplication

Пытаюсь написать что-н. HDFS с использованием Java. HDFS работает хорошо, и я могу вручную...

user2894829 / 07 ноября 2018

0 голосов

0 ответов

Понимание различных элементов Hadoop

Я учу себя Hadoop и модели программирования Map Reduce. Я пытаюсь понять это основные элементы: Я...

Simin / 07 ноября 2018

0 голосов

0 ответов

Имеет ли смысл использовать Spark для обработки полностью независимых подзадач?

Предположим, что моя задача может быть разделена на подзадачи, которые могут выполняться независимо...

Patrick / 06 ноября 2018

0 голосов

1 ответ

Как проверить первые непустые значения в улье

Как проверить первые непустые значения в улье Например Выбор ('', 5) должен привести к 5 Выбор (5,...

BigD / 06 ноября 2018

0 голосов

1 ответ

В каких случаях мы не выделяем блоки для файлов?

В руководстве HDFS Quota сказано следующее для Space Quota. В каких случаях мы не выделяем блоки...

Aravind R. Yarram / 06 ноября 2018

0 голосов

0 ответов

Как управлять дисками для кластера Hadoop и Kubernetes в частном облаке

У меня есть кластер Hadoop, работающий в локальном облаке, и каждый узел данных имеет 8 дисков, и...

Fatemeh Rouzbeh / 06 ноября 2018

0 голосов

0 ответов

'RDD is empty', когда pyspark пытается получить данные из MongoDB

Когда я запускаю следующий код в pyspark shell import pymongo_spark pymongo_spark.activate() rdd =...

onlyvinish / 06 ноября 2018

0 голосов

0 ответов

Как я могу проверить, посылает ли датодода сердцебиение в наменоде?

У меня странная проблема в кластере Hadonworks Hadoop. Для одного узла вид Ambari показывает, что...

AlexScalar / 06 ноября 2018