Вопросы с тегом Hadoop

0 голосов

0 ответов

Ошибка запроса в свободной форме sqoop при импорте сервера sql -> hbase

Привет всем, я пытаюсь импортировать некоторые данные с сервера SQL на hbase и создать таблицу на...

user1823637 / 14 февраля 2019

0 голосов

1 ответ

Какой из них быстрее в Hive?"в" или "или"?

"in" Пример: select * from t where something in ('a', 'b', 'c') "или"...

ruxtain / 14 февраля 2019

0 голосов

2 ответов

Правильный способ чтения файлов из каталога с использованием Python 2.6 в оболочке bash

Я пытаюсь читать в файлах для обработки текста. Идея состоит в том, чтобы запустить их через...

Jabernet / 14 февраля 2019

0 голосов

0 ответов

Конвертировать sql схему в avro

Предположим, у меня есть следующая схема в таблице csv или sql: id (INT) content_type (VARCHAR)...

Miguel A. Friginal / 13 февраля 2019

0 голосов

2 ответов

специальный символ "#" в имени столбца в запросе выбора Hive

У меня есть таблица в Hive, в которой есть имя столбца со специальным символом "#" Как мне выбрать...

LAM3DA / 13 февраля 2019

0 голосов

0 ответов

Apache Hive очень ненадежен в Ubuntu VM

Привет, новичок в Apache Hive, Установлен в Ubuntu 18.04 и может запускать 'show tables;'Команда....

gary / 13 февраля 2019

0 голосов

1 ответ

Hadoop - Борьба с первой настройкой

Я пытаюсь установить Hadoop на мой компьютер с Windows 7.Я делаю это впервые и следую инструкциям...

ryguy72 / 13 февраля 2019

0 голосов

0 ответов

Невозможно импортировать Tensorflow на Spark

Я не могу импортировать Tensorflow в Pysark2.Я получаю следующую ошибку Python 3.4.8 (default, Apr...

Gaurav Gupta / 13 февраля 2019

0 голосов

0 ответов

Реализация алгоритма MinMax в парадигме map-Reduce

У меня есть некоторые данные в таблицах Hbase (несколько миллиардов).Я должен обработать их, чтобы...

Shafiq / 13 февраля 2019

0 голосов

1 ответ

Каталог загрузки Flink Temp Jar удален

Недавно мне не удалось загрузить какие-либо jar-файлы в мой кластер Flink, работающий под YARN в...

austince / 13 февраля 2019

0 голосов

2 ответов

Как записать логический тип TIMESTAMP (INT96) в паркет, используя ParquetWriter?

У меня есть инструмент, который использует org.apache.parquet.hadoop.ParquetWriter для...

James Wierzba / 12 февраля 2019

0 голосов

1 ответ

Как получить следующие n строк в Hive на Hue Cloudera

На самом деле, поскольку Hive не поддерживает OFFSET (не уверен), и я ограничил свой результат...

Logica / 12 февраля 2019

0 голосов

1 ответ

Создать таблицу в Hue после многих с заявлениями

У меня возникла проблема с созданием таблицы в Hue после того, как я сделал кучу временных

Sam / 12 февраля 2019

0 голосов

1 ответ

PIG: несколько записей должны быть расположены в определенном наборе столбцов

У меня есть сценарий, где у меня есть данные, как показано ниже: Customer ID | Customer Name |...

Vikhyat Srivastava / 12 февраля 2019

0 голосов

1 ответ

Опечатка в слове "hdfs" дает мне: "java.io.IOException: нет файловой системы для схемы: hdfs".Использование FileSystem lib поверх hadoop 2.7.7

При использовании FileSystem.get(URI.create("hdfs://localhost:9000/"), configuration) я...

EEstereo / 12 февраля 2019

0 голосов

0 ответов

Невозможно прочитать (read_csv) из HDFS, используя Dask (FileNotFoundError: [Errno 2])

У меня есть кластер с установленным hadoop: hadoop version Hadoop 3.1.1.3.0.1.0-187 Source code...

Mikhail_Sam / 12 февраля 2019

0 голосов

0 ответов

Ошибки кэша пользователя в AWS EMR Spark

Я запускаю Spark Streaming на EMR 5.19, и случайно мои потоковые микробатчи Spark продолжают...

Steven Park / 12 февраля 2019

0 голосов

1 ответ

Как исправить ошибку «Нельзя использовать ноль в качестве ключа карты!»ошибка в Spark.SQL с Python 3 при использовании Group_Map

Я работаю с Spark.SQL и пытаюсь создать сводную таблицу с помощью оператора MAP, чтобы значения...

Alejandro Abad / 12 февраля 2019

0 голосов

0 ответов

Hive - сворачивание остатка суммы из конечного узла в верхний родительский

У меня есть таблица иерархии, есть уровень организации Родительские дочерние отношения.а другая...

A Saraf / 12 февраля 2019

0 голосов

1 ответ

Статус выхода: -100.Диагностика: контейнер освобожден на * потерянном * узле

У меня есть 2 входных файла (один в JSON, а другой в паркетном), я пытаюсь объединить эти 2 больших...

user3407267 / 12 февраля 2019

0 голосов

1 ответ

Невозможно запросить / выбрать данные, вставленные через Spark SQL

Я пытаюсь вставить данные в управляемую таблицу Hive, в которой есть раздел. Показать выходные...

rajusem / 12 февраля 2019

0 голосов

1 ответ

В чем выгода сжать ORC или паркет

Файлы ORC и Parquet сами по себе (без других параметров сжатия, например, snappy) имеют эффекты...

Tom / 12 февраля 2019

0 голосов

1 ответ

Настройка Nutch для записи в Apache Kudu

Я пытаюсь настроить Apache Nutch для записи в Apache Kudu, но нигде не могу найти информацию о том,...

Виталий Олегович / 12 февраля 2019

0 голосов

0 ответов

У меня есть 3 подчиненных узла плюс хозяин hadoop, но появляются только 2 узла

Существует ли максимальное количество подчиненных узлов, которые необходимо настроить для кластера...

Tsitso Makhakhe / 12 февраля 2019

0 голосов

2 ответов

Библиотека Hadoop импортирована, но не может установить метод "get" в FyleSystem

Я пытаюсь настроить вызов HDFS, чтобы получить файл из него, используя FileSystem, чтобы сделать...

EEstereo / 12 февраля 2019