Hbase Map уменьшить и индексировать - PullRequest
0 голосов
/ 30 декабря 2011

Я сканирую различные отраслевые данные и сохраняю данные в одной таблице hbase.Например, я сканирую отрасли электроники и компьютеров и храню в таблице с названием «industry_tbl».Теперь я хочу создать карту сокращений для наборов данных, в частности, для электроники и компьютерной промышленности, и произвести вывод редуктора с различными наборами собранных данных, но в настоящее время hbase берет все данные обеих отраслей и дает мне сокращенные результаты, которыеЯ не могу различить по отраслям.

Любая помощь или идея о том, как решить эту проблему?

Ответы [ 3 ]

0 голосов
/ 01 января 2012

Сделайте отрасль наиболее важной частью вашего ключа hbase и используйте ее для передачи в SCAN, который вы определили для карты-Reduce

0 голосов
/ 23 марта 2012

Вы также можете выполнить сканирование столбцов в таблице Hbase.Для этого поместите всю информацию для конкретной отрасли в определенное семейство столбцов отрасли.

Например, моя отраслевая таблица, вероятно, будет выглядеть следующим образом.

Для данной строки:cf1-science cf2-technology и т. д.

Таким образом, ваши отраслевые данные будут тесно разделены в определенных регионах, что сократит время вашего запроса.

Теперь я просто запросил бы, используя Scan apiи включить определенное семейство столбцов для сканирования.

Таким образом, сканирование вернуло бы мне только детали, относящиеся к конкретной отрасли.

Строка в этом случае все равно останется такой же, какой была бы у вас ранее.

Надеюсь, это объяснение поможет.

0 голосов
/ 31 декабря 2011

Включите отрасль как часть ключа, который вы излучаете в картографе.

...