Вопросы с тегом hadoop2

0 голосов

1 ответ

Map-Reduce не может доставить ожидаемые разделенные файлы

В работе Map-Reduce я использую пять разных файлов, где в моем наборе данных содержатся значения в...

Mohit Raja / 14 сентября 2018

0 голосов

0 ответов

Hadoop Shuffle терпит неудачу

Я запускаю программу подсчета слов. hadoop jar hadoop-mapreduce-examples-2.4.0.jar wordcount...

Naveen chandra / 13 сентября 2018

0 голосов

1 ответ

Перемещение файлов в Hadoop с использованием API

Можно ли перемещать файлы в hadoop, используя FileSystem класс https://hadoop.apache.org/docs/r2.7

Crt / 12 сентября 2018

0 голосов

1 ответ

Проблемы производительности небольших файлов в Hive

Я читал статью о том, как небольшие файлы ухудшают производительность запроса улья....

Gaurang Shah / 11 сентября 2018

0 голосов

1 ответ

Как AM выбирает узел для каждой задачи сокращения?

Я выполняю два задания примера подсчета Word в одном кластере (я запускаю hadoop 2.65 локально с...

Or Raz / 11 сентября 2018

0 голосов

1 ответ

переместить данные из hdfs в s3 с использованием аутентификации на основе сеанса

Может кто-нибудь помочь мне с аутентификацией при переносе данных из hdfs в S3.Чтобы подключиться к...

Manu Batham / 11 сентября 2018

0 голосов

1 ответ

Потоковая передача Hadoop с использованием сценария оболочки: редуктор завершается с ошибкой: нет такого файла или каталога

Я использую кластер HDP из 10 узлов, где я пытаюсь запустить простое задание WordCount с помощью...

akhil pathirippilly / 09 сентября 2018

0 голосов

0 ответов

Сохранение данных в файл последовательности

Я пытаюсь выполнить какую-то фильтрацию файла последовательности и сохранить его в другом файле...

Marcin Gasior / 07 сентября 2018

0 голосов

1 ответ

схема local: / URI для пути "spark.yarn.jars"

Я новичок в поиске и пытаюсь понять код в моем проекте и работать над ним. При создании сеанса...

Rex / 07 сентября 2018

0 голосов

1 ответ

Разделитель по умолчанию для задания «Только карта»

Как изменить разделитель значения ключа по умолчанию в задании «Только карта» в парадигме MapReduce

Gopal Kumar / 07 сентября 2018

0 голосов

1 ответ

Невозможно объединить небольшие файлы ORC с помощью Spark

У меня есть внешняя таблица ORC с большим количеством маленьких файлов, которые ежедневно поступают...

AbhinavVaidya8 / 06 сентября 2018

0 голосов

2 ответов

Является ли хорошей идеей перераспределить 50 миллионов записей данных в фрейме данных? Если да, то кто-нибудь, пожалуйста, скажите мне, как это сделать

Мы собираемся обрабатывать большие данные (~ 50 миллионов записей) в нашей организации. Мы делим...

Ashok Khote / 05 сентября 2018

0 голосов

1 ответ

Неподдерживаемое выражение SubQuery '' Fashion '': выражение SubQuery относится только к выражениям внешнего запроса

Я использую запрос ниже: select UserId, Category from customer_data where (Category in...

harsh / 05 сентября 2018

0 голосов

3 ответов

Hive: Как сравнить два столбца в предложении WHERE со сложными типами данных?

У меня есть таблица улья, которая служит моей исходной таблицей. У меня также есть еще одна таблица...

aiman / 05 сентября 2018

0 голосов

2 ответов

Как исправить Hadoop ПРЕДУПРЕЖДЕНИЕ. В Ubuntu произошла ошибка при неправильной отражающей операции доступа.

Я успешно установил Java openjdk version "10.0.2" и Hadoop 2.9.0. Все процессы работают...

Amalendu Kar / 03 сентября 2018

0 голосов

0 ответов

Почему выполнение spark-shell на YARN два раза приводит к ожиданию второго?

Я настраиваю свой кластер Hadoop для тестирования и помещаю все в 3 контейнера Docker. Мой файл...

stewenson / 02 сентября 2018

0 голосов

2 ответов

Как настроить кластер пряжи для параллельного выполнения Приложений?

Когда я запускаю искровое задание на кластере пряжи, приложения выполняются в очереди. Итак, как я...

vikram reddy / 31 августа 2018

0 голосов

0 ответов

Как найти JSON путь полей в схеме Avro

У меня есть требование собрать путь json всех полей в схеме avro. Пример: { "name":...

Dheepan / 31 августа 2018

0 голосов

0 ответов

Как сделать эффект разделами в Hive

Я использую Hive на MRv2 и пытаюсь оптимизировать запросы улья. База данных предполагает историю...

tbt / 31 августа 2018

0 голосов

1 ответ

Запрос Hive для назначения сгруппированных ключей на основе нескольких дополнительных ключей

У нас есть таблица Hive с тремя разными идентификаторами, все необязательно. В каждой строке должен...

nclark / 30 августа 2018

0 голосов

1 ответ

Является ли Apache Spark верным вариантом для обработки данных непосредственно из RDBMS?

Я выполнил один POC о том, как взаимодействовать с RDBMS [MySQL] напрямую с помощью Apache Spark....

Chauhan B / 28 августа 2018

0 голосов

0 ответов

Активный Наменод не работает в Hadoop

В моем кластере hadoop у меня есть 1 активное имя узла 1 резервный узел имени 3 узла журнала 4 узла...

CrazyMinion / 27 августа 2018

0 голосов

0 ответов

Производительность редуктора в Hadoop

Существует ли простой способ (способ API) для измерения производительности редуктора (сокращения...

Or Raz / 26 августа 2018

0 голосов

1 ответ

SCOOP ОШИБКА имени базы данных не существует, даже если она существует

У меня есть 3 узла, один namenode1, datanode1 и datanode2. Scoop и MySQL установлены на namenode1....

Ashish Mishra / 25 августа 2018

0 голосов

0 ответов

Проблемы с подключением визуализатора БД к комиссионному серверу Hive (после завершения запроса все еще выполняется) [HDP 2.6.x]

Мы используем визуализатор БД для запроса базы данных Hive на HDP 2.6.x, мы сталкиваемся с...

nilesh1212 / 24 августа 2018