Вопросы с тегом HDFS

0 голосов

1 ответ

MapReduce подсчет слов, который находит конкретное слово в наборе данных

Я работаю над простой программой сокращения карт, использующей набор данных Kaggle https://www

AIK / 21 октября 2018

0 голосов

2 ответов

Обработка нескольких небольших файлов общим объемом 100 ГБ в HDFS

В моем проекте есть требование обрабатывать несколько файлов сообщений .txt с использованием...

AngiSen / 21 октября 2018

0 голосов

1 ответ

Можно ли настроить хранилище данных clickhouse на hdfs?

В настоящее время clickhouse хранит данные по / var / lib / clickhouse пути, и я прочитал, что не...

arefehTam / 20 октября 2018

0 голосов

1 ответ

Flink 1.6, ведущий сток, файлы HDFS застряли в .in-progress

Я записываю поток данных Kafka в ведущий приемник по пути HDFS.Кафка выдает строковые данные

Satheesh / 19 октября 2018

0 голосов

1 ответ

Kafka соединяется с ошибкой коннектора HDFS Sink

Я использую версию 1.1 Kafka с подключением Kafka, и я сталкиваюсь с ошибкой, которую не понимаю.Я...

Nastasia / 19 октября 2018

0 голосов

0 ответов

Импортировать модель xgboost в скрипт pyspark напрямую из HDFS

Я пытаюсь загрузить модель xgboost в формате .dat в скрипт pyspark напрямую из HDFS. Я пытался...

Vladimir Sazonov / 19 октября 2018

0 голосов

2 ответов

В HDFS: как проверить, есть ли у 2 каталогов один родительский каталог

Есть ли команда HDFS, чтобы проверить, имеют ли 2 каталога в HDFS общий родительский каталог....

Neethu / 18 октября 2018

0 голосов

1 ответ

импортировать файл дампа postgres в hdfs или таблицу кустов?

У меня есть дамп файла базы данных postgreSQL размером 10 ГБ. Я знаю, что мы можем использовать...

tunned / 18 октября 2018

0 голосов

1 ответ

Мониторинг и проверка длительной работы distcp

Есть ли какие-либо другие возможности для мониторинга и проверки больших заданий distoop, кластера...

matz3 / 17 октября 2018

0 голосов

0 ответов

HDFS проверяет, доступен ли файл для чтения

Есть ли способ проверить, является ли файл в HDFS доступным для чтения с помощью API FileSystem или...

Spicy Meatball / 17 октября 2018

0 голосов

0 ответов

Параметры hdfs inotify - нет доступа к суперпользователю

Есть ли доступ к файлам редактирования для анализа без доступа к суперпользователю hdfs?Кластер, на...

jwbreedlove / 16 октября 2018

0 голосов

0 ответов

Spark on Yarn Проблема с рабочим каталогом локальной машины

Я только что заметил, что мой Spark на YARN все работает на локальном компьютере, его рабочий...

MaatDeamon / 16 октября 2018

0 голосов

0 ответов

Python подключиться к Hadoop Kerberos с именем пользователя-паролем

Мне нужно подключиться к кластеру Hadoop, который имеет аутентификацию Kerberos с использованием...

ale.C / 16 октября 2018

0 голосов

1 ответ

Как записывать данные в режиме реального времени в HDFS с помощью Flume?

Я использую Flume для хранения данных датчиков в HDFS.После того, как данные получены через MQTT

Yassine Fadhlaoui / 16 октября 2018

0 голосов

1 ответ

Cucumber-Hadoop: Как читать файлы объектов огурца из папки HDFS?

Я использую метод import cucumber.api.cli.Main для вызова основного метода огурца, например Main

Anuj Singhal / 16 октября 2018

0 голосов

0 ответов

потоковая передача hadoop не может поддерживать stream.tmpdir

Для поддержки загрузки больших файлов необходимо указать stream.tmpdir в сценарии оболочки. Но при...

刘米兰 / 16 октября 2018

0 голосов

0 ответов

Hive - разница между подсказкой Streamtable и хранением данных в буфере (in_memory)

Я понимаю, что по умолчанию куст куста направляет самую правую таблицу в запросе, которую можно...

Rajeev / 16 октября 2018

0 голосов

0 ответов

ошибка доступа при добавлении раздела в таблицу кустов

Я тренируюсь на клоудере ВМ и создал внешний стол.Когда я добавляю раздел, выдается исключение...

tobi / 15 октября 2018

0 голосов

0 ответов

HDFS - Искра.Файл перераспределения JSONArray

Для обработки данных из API я поместил весь набор данных в формате JSONArray в HDFS как:...

GreGGus / 15 октября 2018

0 голосов

1 ответ

Невозможно выполнить запись в набор данных Azure с процессора Apache NIFI PUTHDFS

Я пытаюсь записать в datalake, используя процессор "PUTHDFS".Я указал путь к файлам core-site.xml и...

EagerLearner / 15 октября 2018

0 голосов

1 ответ

Не удалось разместить достаточно реплик: ожидаемый размер равен 1, но можно выбрать только 0 типов хранения

Не удалось разместить достаточно реплик: ожидаемый размер равен 1, но можно выбрать только 0 типов...

Aana / 15 октября 2018

0 голосов

0 ответов

Запись из 2 отдельных процессов Spark в 1 каталог HDFS

Мне было интересно, могу ли я записать два отдельных процесса Spark в один каталог HDFS.Будет ли...

sparker / 14 октября 2018

0 голосов

1 ответ

Как восстановить ошибочные данные в Sqoop при импорте?

Я импортирую 10 записей из СУБД в Hadoop через Sqoop, сбой задания при загрузке седьмой записи...

Kanagasubramanian / 14 октября 2018

0 голосов

0 ответов

Проблема выполнения программы YARN в многоузловом кластере на основе hadoop

Я внедряю систему, основанную на Hadoop 3.1.1 и YARN и состоящую из 2 виртуальных машин с...

Ivan / 13 октября 2018

0 голосов

1 ответ

как данные будут передаваться из корзины S3 работникам Spark

Когда мы создаем RDD с использованием функции textFile на основе HDFS, он создает разделы в...

neeraj bhadani / 13 октября 2018