Да, вы можете проверить Nutch для вашей задачи.
1) одни только файлы конфигурации не сделают работу за вас. см. пункты выше.
2) вам нужно написать свой собственный плагин Parser, который подключается к фазе анализа после сканирования, разбивает вашу HTML-страницу на предложения и возвращает N результатов с одной страницы. Это довольно странно, так как обычно одна страница - это один результат. Проверьте FeedParser, чтобы увидеть, как вернуть несколько результатов с одной страницы.
3) в принципе, вы можете перебирать страницы, извлеченные с помощью Nutch, получать текст, разбивать их на предложения и использовать API SOLR для индексации ваших предложений, как если бы они были документами. это может быть даже работа с картами довольно легко.
В качестве общего справочного материала я предлагаю вам взглянуть на эту статью, чтобы разбить текст на предложения:
http://sujitpal.blogspot.com/2011/04/uima-sentence-annotator-using-opennlp.html