Мой вопрос в двух словах: кто-нибудь знает о TwitterAnalyzer или TwitterTokenizer для Lucene?
Более подробная версия:
Я хочу проиндексировать несколько твитов в Lucene и оставить такие слова, как @ user или # hashtag без изменений. StandardTokenizer не работает, потому что он отбрасывает пунктуацию (но он делает другие полезные вещи, такие как сохранение доменных имен, адресов электронной почты или распознавание акронимов). Как я могу иметь анализатор, который делает все, что делает StandardTokenizer, но не касается таких терминов, как @user и #hashtag?
Мое текущее решение заключается в предварительной обработке текста твита перед подачей его в анализатор и замене символов другими буквенно-цифровыми строками. Например,
String newText = newText.replaceAll("#", "hashtag");
newText = newText.replaceAll("@", "addresstag");
К сожалению, этот метод нарушает допустимые адреса электронной почты, но я могу с этим смириться. Имеет ли такой подход смысл?
Заранее спасибо!
AMAC