У меня есть набор страниц, просканированных с использованием Nutch. И я понимаю, что эти просканированные страницы сохраняются как сегменты. Я хочу извлечь определенные ключевые значения из этих страниц и передать их в solr как xml.
Примером ситуации является то, что я просканировал торговый сайт со многими списками продуктов. Я хочу извлечь ключевую информацию, такую как имя, цена, характеристики продукта и игнорировать остальные данные. Так что я могу предоставить, чтобы решить некоторые XML как
qwerty123qwerty
Это сделано для того, чтобы с помощью Solr я мог сортировать списки различных продуктов по цене.
Теперь, как можно сделать эту часть извлечения? Уменьшает ли карта что-нибудь на картинке?