Из Lucene вы, вероятно, захотите использовать Mahout.Я использовал байесовский классификатор Махоута для анализа настроений из Lucene, который работал довольно хорошо и был относительно прост в настройке.Я думаю, что главное преимущество Mahout + Lucene по сравнению с чем-либо еще заключается в том, что он лучше масштабируется.
Существуют тонны фреймворков с открытым исходным кодом, с которыми можно сделать это, если вам не нравится Mahout.Например, я считаю, что NLTK очень удобен для пользователя, хотя я не думаю, что он очень хорошо интегрируется с Lucene.