Nutch crawler не индексирует контент HTML - PullRequest
0 голосов
/ 18 ноября 2011

Я пытаюсь разработать функцию поиска, в которой я ввожу название города, и оно дает мне погодные условия для этого города.
Я установил Nutch-1.3 и Solr-3.4.0 в своей системе.Веб-сайт, который я просматриваю, - это здесь и передача индекса в Solr для поиска. Теперь я хочу получить информацию, отображаемую в по этой ссылке , при запросе для Дели.

Как мне этого добиться?Требуется ли плагин для написания?

 <doc><float name="score">1.0</float><float name="boost">0.1879294</float><str name="content"/><str name="digest">d41d8cd98f00b204e9800998ecf8427e</str><str name="id">http://www.imd.gov.in/section/nhac/distforecast/delhi.htm</str><str name="segment">20111118153543</str><str name="title"/><date name="tstamp">2011-11-18T10:06:45.604Z</date><str name="url">http://www.imd.gov.in/section/nhac/distforecast/delhi.htm</str></doc>

1 Ответ

1 голос
/ 18 ноября 2011

Nutch в основном сканирует ссылки на страницах.
Однако на странице Индия нет ссылок, по которым он может перейти на упомянутую вами страницу Дели .
Таким образом, он не сможет перейти на эту страницу вниз.

Вы можете создать свою собственную фиктивную HTML-страницу, выступающую в качестве начального URL для индексации, и иметь все ссылки, которые вы хотите, чтобы Nutch проиндексировал.

Что такое поле поиска по умолчанию в вашей схеме?
Обычно это текстовое поле, и запрос на delhi ищет в этом поле совпадения.
Поскольку *:* возвращает результат delhi, а delhiне.Он не совпадает с индексированными токенами в поле, в котором он ищет.

Какой тип поля определен для url в схеме?
Вы можете скопировать поле в другое поле с анализом текста, что приведет кДели-токен и запрос url_copy:delhi должны вернуть вам результаты.

...