Вопросы с тегом hadoop

0 голосов

0 ответов

Hadoop, карта уменьшить цепочку

Мне нужно реализовать следующую карту -> Reduce1 -> Reduce 2 означает, что Reduce2 - это отдельная...

Ayush / 12 мая 2011

0 голосов

2 ответов

Понимание объединений SQL в предложении WHERE

У меня есть запрос в SQL, который я пытаюсь перевести на Pig Latin (для использования в кластере...

SubSevn / 10 мая 2011

2 голосов

4 ответов

настройка одного узла Hadoop

Я пытаюсь выполнить настройку одного узла для hadoop, как указано в следующей ссылке http://hadoop

shshnk / 10 мая 2011

6 голосов

3 ответов

Кассандра с Улей

Я новичок в Кассандре и Улей. Теперь я хочу интегрировать кассандру с Hadoop-Hive, но как мне...

venkat / 09 мая 2011

8 голосов

3 ответов

Большие наборы данных - NoSQL, NewSQL, SQL ..? Жареный мозг

Мне нужен какой-то совет.Я работаю над новым стартапом в области интеллектуального анализа данных

NightWolf / 09 мая 2011

6 голосов

5 ответов

Обработка большого набора маленьких файлов с Hadoop

Я использую пример программы WordCount для Hadoop для обработки большого набора небольших файлов /...

Sasa / 09 мая 2011

1 голос

1 ответ

нулевой буфер в ReadFields () в редукторе для сложных типов

Я пытаюсь передать сложную запись между маппером и редуктором, точнее ArrayWritable of...

arseny / 06 мая 2011

3 голосов

1 ответ

Эквивалент linux 'diff' в Apache Pig

Я хочу иметь возможность сделать стандартный diff для двух больших файлов. У меня есть кое-что, что...

Richard / 06 мая 2011

0 голосов

1 ответ

Hive / Hadoop / Flatfile: Какой эффективный способ объединить и объединить строки

id col1 col2 ... coln --------------------- foo barA barB ... foo barD barX boo barA barC foo barC...

malangi / 05 мая 2011

16 голосов

8 ответов

Как получить имена текущих запущенных заданий hadoop?

Мне нужно получить список имен заданий, которые в данный момент выполняются, но hadoop -job list...

Karthik / 05 мая 2011

5 голосов

8 ответов

Задание потоковой передачи Hadoop не удалось в python

У меня есть работа с mapreduce, написанная на Python.Программа была успешно протестирована в Linux...

Yuhang / 05 мая 2011

4 голосов

1 ответ

FileInputFormat, где filename - KEY, а текстовое содержимое - VALUE.

Я хотел бы использовать весь файл как отдельную запись для обработки MAP с именем файла в качестве...

David / 04 мая 2011

1 голос

2 ответов

Проблема с трубами Hadoop

Я настроил hadoop в псевдораспределенном режиме (кластер с одним узлом) на моем Ubuntu 10.04. У...

user513164 / 04 мая 2011

1 голос

0 ответов

Mahout / Hadoop: SQL для SequenceFile

Я начинаю использовать Mahout для кластеризации, но мне трудно пытаться преобразовать sql (mysql)...

Carlos Chinchilla / 03 мая 2011

24 голосов

5 ответов

Как исправить ошибку: «Task попытку_201104251139_0295_r_000006_0 не удалось сообщить о состоянии в течение 600 секунд».

Я написал задание mapreduce для извлечения некоторой информации из набора данных.Набор данных - это...

user572138 / 03 мая 2011

0 голосов

1 ответ

Hadoop Mapreduce с двумя банками (одна из банок нужна только для наменода)

Задача mapred - это очень простой 'wordcount', реализованный в Java (plz, см. http://wiki.apache

emeth / 30 апреля 2011

0 голосов

2 ответов

Излучение матрицы из картографа в Hadoop

Я новичок в уменьшении карты Hadoop, я хотел знать, что есть некоторый тип выходного формата,...

ayush singhal / 30 апреля 2011

1 голос

2 ответов

Обработка парафрафов в текстовых файлах как отдельных записей с Hadoop

Немного упрощая мою проблему, у меня есть набор текстовых файлов с «записями», которые разделены...

JasonMond / 29 апреля 2011

0 голосов

1 ответ

Почему JsonLoader elephantbird Pig обрабатывает только часть моего файла?

Я использую Pig на Amazon Elastic Map-Reduce для выполнения пакетной аналитики. Мои входные файлы...

Katia / 29 апреля 2011

3 голосов

2 ответов

Исключение при удаленном выполнении задания hadoop

Я пытаюсь выполнить задание Hadoop на удаленном кластере hadoop.Ниже приведен мой код....

nabeelmukhtar / 28 апреля 2011

4 голосов

4 ответов

Интерпретация выходных данных от mahout clusterdumper

Я провел кластеризационный тест на просканированных страницах (более 25 тыс. Документов; набор...

lucif / 27 апреля 2011

2 голосов

3 ответов

hadoop не работает в многоузловом кластере

У меня есть файл jar "Tsp.jar", который я сделал сам. Эти же самые jar-файлы хорошо работают при...

emiljho / 27 апреля 2011

10 голосов

2 ответов

MapReduce shuffle / метод сортировки

Довольно странный вопрос, но кто-нибудь знает, какой тип MapReduce использует в части сортировки в...

SubSevn / 25 апреля 2011

0 голосов

2 ответов

Хотите сравнить две последовательные работы на Hadoop

Я хочу знать, могу ли я сравнить два последовательных задания в Hadoop.Если нет, то я буду...

user722856 / 24 апреля 2011

2 голосов

2 ответов

Почему файловая система Hadoop не поддерживает случайный ввод / вывод?

Распределенные файловые системы, такие как Google File System и Hadoop, не поддерживают...

Benjamin / 24 апреля 2011