Вот что я использую (он также обрабатывает теги UTF-8, а не только ASCII):
private static final Pattern TAG_PATTERN =
Pattern.compile("(?:^|\\s|[\\p{Punct}&&[^/]])(#[\\p{L}0-9-_]+)");
Кстати, вы сможете получить хэштеги от твитов (include_entities=true
)