Вопросы с тегом hadoop

0 голосов

1 ответ

Предварительная группировка таблиц в HDFS и чтение в Spark с нулевым перемешиванием

Контекст У меня есть две таблицы, к которым я присоединяюсь / объединяюсь как часть моих искровых...

naj / 24 августа 2018

0 голосов

1 ответ

ACL не поддерживаются хотя бы в одной файловой системе: Distcp HDFS

As per distcp documentation -> If -pa is specified, DistCp preserves the permissions also...

satish sidnakoppa / 24 августа 2018

0 голосов

0 ответов

Запрос паркетного файла через Apache Parquet-Mr Java

В настоящее время я использую Apache Parquet-Mr (Java) для обработки файлов Parquet. Я...

PRANAV SHRINIVAS PALANDE / 24 августа 2018

0 голосов

0 ответов

Как установить параметры для запросов hiveQL

Я запускаю следующий файл hiveql со следующим содержимым set mapred.output.compress=true; set hive

Karthi / 06 июля 2018

0 голосов

1 ответ

План выполнения Spark SQL в Spark 2.3 слишком медленный

Я обновил нашу систему HDP (Hortonworks Data Platform) с 2.5.2 до новейших версий (2.6.5). Все...

Phong Pham / 06 июля 2018

0 голосов

2 ответов

В таблице Hive отображаются только NULL

Я создал таблицу в улье. не внешний , структура таблицы остается такой же, как у файла, который...

Rohini Mathur / 06 июля 2018

0 голосов

2 ответов

Какие типы сжатия поддерживаются в паркете?

Я писал данные на Hadoop и куст в формате паркета, используя спарк. Я хочу включить сжатие, но я...

User_qwerty / 06 июля 2018

0 голосов

1 ответ

Ошибка таблицы импорта Sqoop в кавычках

Я пытаюсь импортировать данные из базы данных SAP Hana в hadoop с помощью команды импорта sqoop, но...

Manik / 06 июля 2018

0 голосов

1 ответ

Импала - это требует hdfs и namenodes?

Может ли Apache Impala установить / запустить на EC2 (а не на EMR) чтение данных из S3? Или для...

tooptoop4 / 06 июля 2018

0 голосов

2 ответов

Hadoop SQL - Импала и вычисляемое поле

Я очень новичок в Hadoop и пытаюсь использовать «вычисляемое» поле, как в SQL: SELECT...

Cliff / 05 июля 2018

0 голосов

0 ответов

вызов метода Java из оболочки hbase

У меня есть требование, когда мне нужно создать собственную команду Hbase Shell и вызвать метод...

arunkindra / 05 июля 2018

0 голосов

1 ответ

Apache Spark для бизнес-процесса?

Я понимаю возможности Spark / Hadoop для работы с большими данными, но меня просят использовать их...

The Shoe Shiner / 05 июля 2018

0 голосов

0 ответов

Kafka HDFS разъем не показывает никаких данных

Я получил это сообщение: WorkerSinkTask{id=hdfs-test-0} Sink task finished initialization and start...

Wiem Bel Hadj / 05 июля 2018

0 голосов

1 ответ

logstash IllegalStateException?

Я пытаюсь выполнить эту команду: aymenstien@aymenstien-VPCEH2Q1E:/usr/share/logstash$

Aymen Rahal / 05 июля 2018

0 голосов

0 ответов

Py4JJavaError: org.apache.spark.SparkException: исключение, выброшенное в awaitResult

Я создал блокнот в Jupyter SPARK_MAJOR_VERSION=2 PYSPARK_DRIVER_PYTHON=jupyter...

Nikolay Baranenko / 05 июля 2018

0 голосов

1 ответ

Сравнение даты / строки в Impala не работает (всегда возвращает false)

Итак, я сейчас пишу импала-запрос, который по существу группирует данные, основанные на нескольких...

Nathaniel Wihardjo / 05 июля 2018

0 голосов

2 ответов

Установка Ubuntu через ВМ для настройки среды Hadoop

Я новичок в Hadoop домене. Я хочу знать о системных требованиях для настройки среды hadoop. Мой...

Kowsalya Balakrishnan / 05 июля 2018

0 голосов

1 ответ

Не найдено: org.apache.hadoop.security.authentication.util.KerberosUtil

Я запускаю штормовую банку в кластере, где я настроил hadoop, kafka, штормовую группу когда я...

andani / 05 июля 2018

0 голосов

0 ответов

Может ли sparksql или hiveserver2 подключаться к 2 разным метасторам одновременно?

Вариант использования: Datastax DSE Cluster под управлением Cassandra, HiveMetastore (на основе...

tooptoop4 / 05 июля 2018

0 голосов

2 ответов

Экспорт Sqoop не выполняется. Не могу разобрать входные данные: '<data>'

Когда я запускаю команду sqoop export из терминала, она работает нормально. Но если я запускаю ту...

user7481861 / 05 июля 2018

0 голосов

0 ответов

Работа Oozie возвращает ошибку HIVETEZHS2USERACCESS

Я недавно преобразовал кластер HDP (2.6.2) в HDInsight 3.6 (ранее 3.5). С этого момента мои сиськи,...

Andrzej Ka / 04 июля 2018

0 голосов

2 ответов

Удалить оба дубликата строки

Добрый день, коллеги. У меня большой набор данных (около 237 000 000 строк). Есть много столбцов....

Александр Шаповалов / 04 июля 2018

0 голосов

0 ответов

Вставить в таблицу Hive ORC вложенный POJO

У нас есть сервер улья для хранения больших данных, которые мы хотим использовать. Таблица хранится...

Mozzan / 04 июля 2018

0 голосов

1 ответ

Действительно ли конфигурация памяти имеет значение с честным планировщиком?

У нас есть кластер hadoop с настроенным честным планировщиком. Мы привыкли видеть сценарий, когда в...

William R / 04 июля 2018

0 голосов

0 ответов

Обновить таблицы улья в Улей

У меня есть несколько таблиц в Hive, каждый день новый csv-файл будет добавляться в расположение...

Hari / 04 июля 2018