Использование Nutch для получения определенных тегов HTML - PullRequest
0 голосов
/ 28 декабря 2011

Я буду немного многословен, чтобы четко определить проблему, поэтому, пожалуйста, наберитесь терпения:)

Предположим, у меня есть следующий базовый URL: http://www.amazon.com/gp/goldbox/all-deals?ie=UTF8&type=bd
который перечисляет ряд продуктов с кратким описанием. У каждого продукта в списке есть URL, указывающий на страницу с подробной информацией о продукте, например: http://www.amazon.com/dp/B000WU7RGS/ref=xs_gb_all-deals_center_rw_uk_A34K0C99MV3O0U?pf_rd_p=1261804642&pf_rd_s=center-2&pf_rd_t=701&pf_rd_i=30&pf_rd_m=ATVPDKIKX0DER&pf_rd_r=1FE5R5X5XYMG6GDPHPK5

Теперь мои требования - это (например) получить название, цену и информацию о продукте для каждого из этих продуктов. Как я могу добиться этого с помощью Nutch? Нужен ли Nutch / хороший вариант для этого или просто простой wget + собственный HTML-парсер - лучший путь?

Примечание: я должен сделать это для нескольких страниц с очень разным макетом, и только вход будет URL-адрес и какие HTML-теги извлечь из URL

1 Ответ

0 голосов
/ 13 апреля 2012

работает над той же проблемой. Однако, кажется, что есть несколько утомительных шагов для достижения цели:

1-сканирование 2-index 3-получить необработанный html путем -readseg 4-проанализировать файл для получения необходимой информации

Итак, Nutch не кажется хорошим способом сделать это. Вам удалось найти ответ?

...