Question

Я буду немного многословен, чтобы четко определить проблему, поэтому, пожалуйста, наберитесь терпения:)

Предположим, у меня есть следующий базовый URL: http://www.amazon.com/gp/goldbox/all-deals?ie=UTF8&type=bd
который перечисляет ряд продуктов с кратким описанием. У каждого продукта в списке есть URL, указывающий на страницу с подробной информацией о продукте, например: http://www.amazon.com/dp/B000WU7RGS/ref=xs_gb_all-deals_center_rw_uk_A34K0C99MV3O0U?pf_rd_p=1261804642&pf_rd_s=center-2&pf_rd_t=701&pf_rd_i=30&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=1FE5R5X5XYMG6GDPHPK5

Теперь мои требования - это (например) получить название, цену и информацию о продукте для каждого из этих продуктов. Как я могу добиться этого с помощью Nutch? Нужен ли Nutch / хороший вариант для этого или просто простой wget + собственный HTML-парсер - лучший путь?

Примечание: я должен сделать это для нескольких страниц с очень разным макетом, и только вход будет URL-адрес и какие HTML-теги извлечь из URL

İsmet Alkan · Answer 1 · 13 апреля 2012

работает над той же проблемой. Однако, кажется, что есть несколько утомительных шагов для достижения цели:

1-сканирование 2-index 3-получить необработанный html путем -readseg 4-проанализировать файл для получения необходимой информации

Итак, Nutch не кажется хорошим способом сделать это. Вам удалось найти ответ?

Использование Nutch для получения определенных тегов HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Использование Nutch для получения определенных тегов HTML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы