Постобработка страниц, просканированных с использованием Nutch - PullRequest
0 голосов
/ 06 марта 2012

У меня есть набор страниц, просканированных с использованием Nutch. И я понимаю, что эти просканированные страницы сохраняются как сегменты. Я хочу извлечь определенные ключевые значения из этих страниц и передать их в solr как xml.

Примером ситуации является то, что я просканировал торговый сайт со многими списками продуктов. Я хочу извлечь ключевую информацию, такую ​​как имя, цена, характеристики продукта и игнорировать остальные данные. Так что я могу предоставить, чтобы решить некоторые XML как qwerty123qwerty Это сделано для того, чтобы с помощью Solr я мог сортировать списки различных продуктов по цене.

Теперь, как можно сделать эту часть извлечения? Уменьшает ли карта что-нибудь на картинке?

1 Ответ

1 голос
/ 06 марта 2012

Превращение необработанных веб-страниц в информацию не является тривиальной задачей.Одним из инструментов, используемых для этой работы, является Boilerpipe.Однако это не даст вам решения на табличке.

Если вы работаете с фиксированной целью, вы можете просто написать собственный процедурный код, чтобы найти нужные данные.Если вам нужно найти что-то подобное в произвольном HTML, вы столкнетесь с очень сложной проблемой, не имея готовых решений.

...