Приговоры как документы в Nutch - PullRequest
1 голос
/ 31 октября 2011

Мне нужно, чтобы Nutch разбивал веб-страницы на предложения при сохранении результатов сканирования.Причина в том, что Solr при индексировании видит каждое предложение как документ.

В результате мне нужно иметь возможность выполнить поиск, скажем, «одного слова» и получить список всех предложений, содержащих"one" и / или "word".

Я новичок в Nutch, поэтому некоторые указатели были бы действительно полезны ...

  1. Стоит ли искать файлы конфигурации Nutch?
  2. Нужно ли менять исходный код Nutch?
  3. Или я могу написать отдельное приложение, которое может редактировать результаты сканирования после завершения сканирования Nutch?

1 Ответ

1 голос
/ 03 ноября 2011

Да, вы можете проверить Nutch для вашей задачи.

1) одни только файлы конфигурации не сделают работу за вас. см. пункты выше.

2) вам нужно написать свой собственный плагин Parser, который подключается к фазе анализа после сканирования, разбивает вашу HTML-страницу на предложения и возвращает N результатов с одной страницы. Это довольно странно, так как обычно одна страница - это один результат. Проверьте FeedParser, чтобы увидеть, как вернуть несколько результатов с одной страницы.

3) в принципе, вы можете перебирать страницы, извлеченные с помощью Nutch, получать текст, разбивать их на предложения и использовать API SOLR для индексации ваших предложений, как если бы они были документами. это может быть даже работа с картами довольно легко.

В качестве общего справочного материала я предлагаю вам взглянуть на эту статью, чтобы разбить текст на предложения:

http://sujitpal.blogspot.com/2011/04/uima-sentence-annotator-using-opennlp.html

...