Натч и сохранить данные сканирования в Amazon S3 - PullRequest
1 голос
/ 12 сентября 2011

Я пытаюсь оценить, являются ли Nutch / Solr / Hadoop подходящими технологиями для моей задачи.

PS: Ранее я пытался интегрировать Nutch (1.4) и Hadoop, чтобы посмотреть, как он работает.

Вот то, что я пытаюсь достичь в целом, а) Начните с Seed URL (s) и сканируйте и анализируйте / сохраняйте данные / ссылки - Что делает гусеничный ход Nutch?

b) Затем можно запросить индексы для обхода у клиента Java. --- (может быть с использованием клиента SolrJ)

в) Поскольку Nutch (начиная с 1.4.x) уже использует Hadoop для внутреннего использования. Я просто установлю Hadoop и сконфигурирую в гайке - **. Xml

d) Я бы хотел, чтобы Nutch сохранил просканированные индексы в Amazon S3, а также Hadoop, чтобы использовать S3 в качестве файловой системы. Это вообще возможно? или даже стоит?

e) Я читал на одном из форумов, что в Nutch 2.0 есть слой данных, использующий GORA, который может сохранять индексы в HBase и т. Д. Я не знаю, когда выйдет версия 2.0. :-( Кто-нибудь предлагает захватить 2.0 "inprogress" транк и начать его использовать, надеясь рано или поздно получить освобожденную библиотеку?

PS: Я все еще пытаюсь выяснить, как / когда / почему / где Nutch использует Hadoop для внутреннего использования. Я просто не могу найти какую-либо письменную документацию или учебные пособия. Любая помощь по этому аспекту также высоко ценится.

Если вы читаете эту строку, то большое спасибо за чтение этого поста до этого момента: -)

1 Ответ

1 голос
/ 15 сентября 2011

Hadoop может использовать S3 в качестве базовой файловой системы. У меня были очень хорошие результаты с этим подходом при запуске Hadoop в EC2, с использованием EMR или ваших собственных / сторонних AMI Hadoop. Я бы не рекомендовал использовать S3 в качестве основной файловой системы при использовании Hadoop за пределами EC2, так как ограничения пропускной способности, скорее всего, сведут на нет любое повышение производительности, которое даст вам Hadoop. Адаптер S3 для Hadoop был разработан Amazon и является частью ядра Hadoop. Hadoop рассматривает S3 как HDFS. См. http://wiki.apache.org/hadoop/AmazonS3 для получения дополнительной информации об использовании Hadoop с S3.

Nutch предназначен для работы в качестве задания в кластере Hadoop (в режиме «развертывания») и поэтому не включает Jar-файлы Hadoop в свой дистрибутив. Однако, поскольку он выполняется как задание Hadoop, он может получить доступ к любому базовому хранилищу данных, которое поддерживает Hadoop, например, HDFS или S3. При запуске в «локальном» режиме вы обеспечите собственную локальную установку Hadoop. После завершения сканирования в режиме «развертывания» данные будут сохранены в распределенной файловой системе. Рекомендуется дождаться окончания индексации, а затем загрузить индекс на локальный компьютер для поиска, а не поиска в DFS по соображениям производительности. Подробнее об использовании Nutch с Hadoop см. http://wiki.apache.org/nutch/NutchHadoopTutorial.

Что касается HBase, у меня был хороший опыт его использования, хотя не для вашего конкретного случая использования. Я могу себе представить, что для случайных поисков, Solr может быть более быстрым и более навороченным, чем HBase, но это спорно. HBase, вероятно, стоит попробовать. Пока не выйдет 2.0, вы можете захотеть написать свой собственный разъем Nutch-to-HBase или просто придерживаться Solr.

...