Как я могу сканировать данные из hbase, используя Nutch - PullRequest
2 голосов
/ 13 декабря 2011

Мое требование - сканировать данные с HBASE с использованием Nutch, а затем индексировать их в Solr как я могу продолжить это?

Ответы [ 2 ]

1 голос
/ 16 декабря 2011

Я не думаю, что "сканирование" - это правильная терминология, которую следует использовать, когда речь идет о базах данных.Сканирование - это особый вариант использования, когда вы хотите "сканировать" веб-страницы, вы не знаете, с чего начинаете.Вы не знаете, какова конечная точка.Следовательно, вы начинаете в какой-то момент и пытаетесь выяснить, что там лежит.

Когда дело доходит до базы данных, базы данных NOSQL, такой как HBase.Вы уже «знаете», что находится в этой базе данных.Все, что вам нужно сделать, это получить информацию полностью или частично получить то, что в ней, на основе конкретных запросов.

Я вижу, что, возможно, в вашем случае вы могли бы настроить Lucene для построения ваших индексов из данных, запрашиваемых из HBase, а затем передать эти индексы в Solr для создания полноценного поискового приложения.

Надеюсьэто может быть направление, которое вы ищете.

1 голос
/ 13 декабря 2011

Nutch предназначен для сканирования веб-сайтов и поэтому не знает, как сканировать hbase.

Поскольку вы пытаетесь проиндексировать содержимое из hbase в solr, у вас есть как минимум два варианта:

Если у вас есть приложение, которое сохраняет данные в hbase, измените его, чтобы индексировать данные в solr после сохранения данных в hbase.

Вы также можете написать задание Map / Reduce для отправки данных из hbase в solr.

Вам также стоит заглянуть в проект lily . Он объединяет hbase и solr.

Также, если ваши поисковые запросы просты, вы можете разработать схему hbase, чтобы вам не требовался solr.

...