Вопросы с тегом hadoop-перегородки

0 голосов

2 ответов

Лучший вариант для объединения нескольких файлов в одном разделе в hadoop?

У меня есть таблица, разделенная на event_date, и по какой-то причине, когда я вставляю данные во...

phenderbender / 12 ноября 2019

0 голосов

1 ответ

Управляемый Hive vs Внешние таблицы

Какой из них лучше (с точки зрения производительности и работы в долгосрочной перспективе) в...

amr007 / 03 ноября 2019

0 голосов

1 ответ

перезапись записи pyspark разделена, но все еще перезаписывает предыдущую загрузку

Я запускаю сценарий pyspark, где при каждом запуске сценария я сохраняю некоторые данные в корзину...

Cards14 / 23 октября 2019

2 голосов

1 ответ

передача нескольких дат в качестве параметров запроса Hive

Я пытаюсь передать список дат в качестве параметра в мой запрос улья. #!/bin/bash echo...

vikrant rana / 10 июля 2019

0 голосов

1 ответ

В программе уменьшения количества слов на карте необходимо выбрать файлы, в которых есть слова

Я читаю несколько входных файлов для проблемы подсчета слов. Примеры имен файлов: file1.txt file2

Rakesh R / 01 июля 2019

0 голосов

0 ответов

В HDFS - Как редактировать файлы усекаются после контрольной точки?

Я знаю, как работает NameNode, узел вторичного имени. Просто любопытно, когда контрольная точка...

grep / 28 июня 2019

1 голос

1 ответ

Как объединить существующие часовые разделы с ежедневными разделами в улье

Мое требование - объединить существующие часовые разделы с ежедневными разделами для всех дней. Мой...

bala chandar / 25 июня 2019

1 голос

1 ответ

невозможно получить доступ к таблице улья в импале

Невозможно получить доступ к таблице кустов в Impala, в которой есть раздел, созданный в столбце...

Umer / 19 мая 2019

0 голосов

0 ответов

Hadoop MongoDb: невозможно обновить существующий документ

Я реализовал функцию Map-Reduce, чтобы извлекать документы из одной коллекции, фильтровать ее и...

iMDroid / 02 марта 2019

0 голосов

0 ответов

Раздел Hive По динамическому значению в имени файла s3

Предполагается, что местоположение S3 с необходимыми данными имеет вид:...

pippa dupree / 01 марта 2019

0 голосов

0 ответов

Объединить формат ввода файла hadoop

Я использую CombineFileInputFormat для действия по уменьшению карты для обработки небольших файлов...

jp1518 / 03 января 2019

0 голосов

1 ответ

Можно ли виртуально разделить кластер hadoop на небольшие кластеры?

Мы работаем над созданием большого кластера из 100 узлов с хранилищем 300 ТБ.Затем мы должны...

Shafiq / 27 декабря 2018

0 голосов

0 ответов

Динамическое разбиение с вставкой нулевого значения для второго столбца разбиения

Я пытаюсь создать динамическое разбиение на основе двух столбцов и загрузить данные из файла,...

sabby / 19 декабря 2018

0 голосов

0 ответов

Создать уникальный идентификатор в MapReduce

Я сравниваю два файла A & B и извлекаю столбцы из A, которых нет в B, и добавляю их в B. Когда...

user2316771 / 04 декабря 2018

0 голосов

1 ответ

Hive запрос не читает поле раздела

Я создал секционированную таблицу Hive, используя следующий запрос CREATE EXTERNAL TABLE...

user2316771 / 03 декабря 2018

0 голосов

0 ответов

PySpark: разбиение и хеширование нескольких фреймов данных, затем соединение

Справочная информация: Я работаю с клиническими данными с большим количеством различных .csv/.txt...

cph_sto / 22 ноября 2018

0 голосов

1 ответ

Как работает раздел Hive

Предположим, что приведенная ниже таблица: в качестве схемы: ID,NAME,Country и my partition key is...

Varshini / 28 октября 2018

0 голосов

1 ответ

Максимальное количество разделов в улье

В моих таблицах кустов 1500 разделов, но выполнение запроса занимает больше времени, чем ожидалось

Naveen Gupta / 22 октября 2018

0 голосов

1 ответ

Получена следующая ошибка при выполнении запроса улья.Какие могут быть возможные причины для этого?

java.sql.SQLException: ошибка при обработке оператора: FAILED: ошибка выполнения, код возврата 2 из...

Ankit / 19 октября 2018

0 голосов

1 ответ

Как проверить данные конкретного раздела из разделов Spark в Pyspark

Я создал два фрейма данных в pyspark из моей таблицы улья: data1 = spark.sql("""...

vikrant rana / 04 октября 2018

0 голосов

0 ответов

Почему раздел должен быть отсортирован до сокращения?

С здесь : Согласно руководству по определению hadoop "Внутри каждого раздела фоновый поток...

TheeNinjaDev / 01 октября 2018

0 голосов

1 ответ

Map-Reduce не может доставить ожидаемые разделенные файлы

В работе Map-Reduce я использую пять разных файлов, где в моем наборе данных содержатся значения в...

Mohit Raja / 14 сентября 2018

0 голосов

1 ответ

Как AM выбирает узел для каждой задачи сокращения?

Я выполняю два задания примера подсчета Word в одном кластере (я запускаю hadoop 2.65 локально с...

Or Raz / 11 сентября 2018

0 голосов

1 ответ

Преобразовать значение при вставке в таблицу HIVE

Я создал таблицу с интервалом emp_bucket в 4 сегмента, сгруппированных по столбцу зарплаты

Sunil / 12 июня 2018

0 голосов

1 ответ

Вставка куста перезаписывает таблицу в некоторых случаях

Я работал над одним решением и обнаружил, что в некоторых конкретных случаях куст insert overwrite...

Gaurang Shah / 31 мая 2018