Я пытаюсь оценить, являются ли Nutch / Solr / Hadoop подходящими технологиями для моей задачи.
PS: Ранее я пытался интегрировать Nutch (1.4) и Hadoop, чтобы посмотреть, как он работает.
Вот то, что я пытаюсь достичь в целом,
а) Начните с Seed URL (s) и сканируйте и анализируйте / сохраняйте данные / ссылки
- Что делает гусеничный ход Nutch?
b) Затем можно запросить индексы для обхода у клиента Java.
--- (может быть с использованием клиента SolrJ)
в) Поскольку Nutch (начиная с 1.4.x) уже использует Hadoop для внутреннего использования. Я просто установлю Hadoop и сконфигурирую в гайке - **. Xml
d) Я бы хотел, чтобы Nutch сохранил просканированные индексы в Amazon S3, а также Hadoop, чтобы использовать S3 в качестве файловой системы.
Это вообще возможно? или даже стоит?
e) Я читал на одном из форумов, что в Nutch 2.0 есть слой данных, использующий GORA, который может сохранять индексы в HBase и т. Д. Я не знаю, когда выйдет версия 2.0. :-(
Кто-нибудь предлагает захватить 2.0 "inprogress" транк и начать его использовать, надеясь рано или поздно получить освобожденную библиотеку?
PS: Я все еще пытаюсь выяснить, как / когда / почему / где Nutch использует Hadoop для внутреннего использования. Я просто не могу найти какую-либо письменную документацию или учебные пособия. Любая помощь по этому аспекту также высоко ценится.
Если вы читаете эту строку, то большое спасибо за чтение этого поста до этого момента: -)