Вопросы с тегом Hadoop

2 голосов

2 ответов

как выполнить ETL в карте / уменьшить

как нам спроектировать маппер / редуктор, если мне нужно построчно преобразовывать текстовый файл в...

sandeepkunkunuru / 03 января 2011

3 голосов

1 ответ

Хранение объектов и связей между ними в HBase

Я начинаю личный проект, который включает в себя хранение большой базы данных объектов и отношений...

Erin / 03 января 2011

3 голосов

2 ответов

Справка, касающаяся баз данных SQL, таких как hadoop, hbase и т. Д.

Я новичок в распределенных базах данных NoSQL, таких как Hadoop, Cassandra и т. Д. У меня есть...

Harsh / 02 января 2011

1 голос

2 ответов

Java + Hadoop + NoSql (какие комбинации использовать)

Я новичок в этом, и мое требование заключается в следующем: Я хочу обработать огромный набор данных...

daydreamer / 31 декабря 2010

0 голосов

1 ответ

Как обрабатывать строки в файле в конкретном ведомом hadoop?

У нас есть собственный формат ввода, расширяющий FileInputFormat, который генерирует отдельное...

Chandra Sekar / 30 декабря 2010

3 голосов

2 ответов

Используя PIG с Hadoop, как я могу сопоставить части текста с неизвестным числом групп?

Я использую карту упругости Amazon. У меня есть файлы журналов, которые выглядят примерно так...

lmonson / 30 декабря 2010

1 голос

1 ответ

Самый простой способ написания HBase MapReduce не на Java?

Я давно над этим работаю и чувствую себя очень измученным;Я надеюсь на [очевидное?] Понимание со...

linked / 29 декабря 2010

2 голосов

1 ответ

Возврат агрегатов из данных HBASE

У меня есть таблица HBASE, содержащая около 150 тыс. Строк, каждая из которых содержит 3700...

Mike / 29 декабря 2010

1 голос

2 ответов

Распределенный кэш Hadoop (Cloudera CH3)

Я пытаюсь запустить простой пример с использованием двоичного исполняемого файла и кэшированного...

josephmisiti / 29 декабря 2010

6 голосов

4 ответов

как работает netezza?как это сравнить с Hadoop?

Хотите понять, является ли Netezza или Hadoop правильным выбором для следующих целей: Извлечение...

sandeepkunkunuru / 29 декабря 2010

10 голосов

4 ответов

карта hadoop уменьшает работу с входом HDFS и выходом HBASE

Я новичок в hadoop.У меня есть задание MapReduce, которое должно получать входные данные из Hdfs и...

jmventar / 28 декабря 2010

1 голос

1 ответ

Как я могу использовать несколько входных файлов в качестве входного файла?

Я хочу использовать несколько файлов (фактически 2 файла) в качестве входных файлов. они имеют...

Jun Young Kim / 27 декабря 2010

3 голосов

4 ответов

Итеративный MapReduce

Я написал простой код кластеризации k-средних для Hadoop (две отдельные программы - маппер и...

Deepak / 27 декабря 2010

3 голосов

2 ответов

Ошибка hbase: "12.1026 06:48:07 ИНФОРМАЦИЯ ipc.HbaseRPC: Не удалось связаться с сервером по адресу /127.0.0.1:58920 после 1 попытки, отказавшись."

Кто-нибудь знает, что не так с hbase?Я использую vm-образ дистрибутива cloudera для hadoop, раньше...

Ali / 26 декабря 2010

11 голосов

6 ответов

Стоит ли покупать Mahout в действии, чтобы освоиться с Mahout, или есть другие лучшие источники?

Я в настоящее время очень случайный пользователь Apache Mahout , и я рассматриваю возможность...

Gabriel Reid / 22 декабря 2010

25 голосов

3 ответов

Hadoop namenode: единая точка отказа

Наменод в архитектуре Hadoop - это единственная точка отказа. Как люди, имеющие большие кластеры...

rakeshr / 21 декабря 2010

6 голосов

2 ответов

Жизнь распределенного кэша в Hadoop

Когда файлы передаются на узлы с использованием механизма распределенного кэша в потоковом задании...

JD Long / 19 декабря 2010

4 голосов

1 ответ

Тонкая настройка PIG для локального исполнения

Я использую PIG latin для обработки журналов, потому что это выражается в проблеме, когда данные...

tonicebrian / 16 декабря 2010

20 голосов

6 ответов

Ошибка потокового задания Hadoop в python

Из этого руководства я успешно выполнил пример упражнения. Но при выполнении задания mapreduce я...

db42 / 16 декабря 2010

1 голос

2 ответов

Получить имена схемы поля от Pig

Я работаю над JsonStorage для Pig.Все работает нормально, но по крайней мере мне нужно получить...

Christoph / 16 декабря 2010

1 голос

2 ответов

Как разделить данные в s3 для использования с кустом hadoop?

У меня есть корзина s3, содержащая около 300 ГБ файлов журналов в произвольном порядке. Я хочу...

Matthew Rathbone / 15 декабря 2010

5 голосов

1 ответ

Устранение неполадок сценария R mapper в Amazon Elastic MapReduce - результаты не такие, как ожидалось

Я пытаюсь использовать Amazon Elastic Map Reduce для запуска серии симуляций нескольких миллионов...

wahalulu / 14 декабря 2010

0 голосов

1 ответ

Скрытые возможности Hadoop MapReduce

Какие скрытые возможности Hadoop MapReduce должны знать все разработчики? Одна скрытая функция в...

Jonhnny Weslley / 14 декабря 2010

20 голосов

2 ответов

Что такое параметр кворума zookeeper в hbase-site.xml?

raj / 14 декабря 2010

6 голосов

3 ответов

Какой самый простой способ объединить небольшие блоки HDFS?

Я собираю журналы с Flume для HDFS.Для тестового примера у меня есть небольшие файлы (~ 300 КБ),...

KARASZI István / 13 декабря 2010