Как мы можем сделать операцию карты из файла и кассандры одновременно? - PullRequest
0 голосов
/ 16 января 2011

Я хочу сделать работу hadoop, отображая входные данные, которые из файла и кассандры одновременно это возможно?

Я знаю способы получения файлов входных файлов из каталога или введите данные из кассандры.

но я не уверен, что способ получить каждый вход от них возможен.

вот еще несколько подсказок, чтобы описать мою ситуацию. Формат данных такой же.

такой файл: ключ значение1 значение2 значение3 ...

структура столбца кассандры, подобная этой: ключевой столбец | имя столбца1 | имя столбца 2 | имя столбца 3 значение ключа | значение столбца1 | столбец vlaue2 | значение столбца 3 ...

Мне нужно извлечь из них строку, а затем сравнить данные на основе каждого ключа. да, я могу получить дубликаты ключей или новые ключи или удаленные ключи.

спасибо.

1 Ответ

1 голос
/ 17 января 2011

Вы можете сделать это в двух заданиях.Сначала создайте задание только для карты, чтобы перенести ваши данные Cassandra в HDFS.

Затем используйте класс «MultipleInputs» addInputPath, чтобы указать два местоположения, из которых вы хотите получать данные: http://hadoop.apache.org/common/docs/r0.20.1/api/org/apache/hadoop/mapred/lib/MultipleInputs.html

Затем в вашей карте (вашей второй работы) вы можете иметь логическую зависимость от того, что вводится на основе данных, которые вы видите (например, когда первый столбец из cassandra говорит «cassandra») и распознает, что в вашем классе карты второгозадание) и очистите его (сделайте его равномерным), когда оно направится к редуктору.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...