Question

У меня есть набор страниц, просканированных с использованием Nutch. И я понимаю, что эти просканированные страницы сохраняются как сегменты. Я хочу извлечь определенные ключевые значения из этих страниц и передать их в solr как xml.

Примером ситуации является то, что я просканировал торговый сайт со многими списками продуктов. Я хочу извлечь ключевую информацию, такую как имя, цена, характеристики продукта и игнорировать остальные данные. Так что я могу предоставить, чтобы решить некоторые XML как qwerty123qwerty Это сделано для того, чтобы с помощью Solr я мог сортировать списки различных продуктов по цене.

Теперь, как можно сделать эту часть извлечения? Уменьшает ли карта что-нибудь на картинке?

bmargulies · Answer 1 · 06 марта 2012

Превращение необработанных веб-страниц в информацию не является тривиальной задачей.Одним из инструментов, используемых для этой работы, является Boilerpipe.Однако это не даст вам решения на табличке.

Если вы работаете с фиксированной целью, вы можете просто написать собственный процедурный код, чтобы найти нужные данные.Если вам нужно найти что-то подобное в произвольном HTML, вы столкнетесь с очень сложной проблемой, не имея готовых решений.

Постобработка страниц, просканированных с использованием Nutch

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Постобработка страниц, просканированных с использованием Nutch

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы