У меня есть следующее регулярное выражение (<.*?>.*?</.*?>|[\w[-]]+)\p{Punct}*
, которое идеально подходит для большинства строк с тегами, но если тегу не предшествует пробел, он разрывает тег при поиске соответствия.
Пожалуйста, помогите мне изменить это регулярное выражение так, чтобы оно не нарушало теги. Все, что я ищу, это разделить пробелы, но не если пробел находится внутри тега.
Например:
BIRD-<abc attr="co_1">ab</span> @apos;<abc attr="co_12">cd</span>FEE DEF
следует разделить на:
BIRD-<abc attr="co_1">ab</span>
@apos;<abc attr="co_12">cd</span>FEE
DEF
В настоящее время я использую средство сопоставления для сопоставления с этим шаблоном и получения токенов
Matcher matcher = REGEX.matcher(newString);
while (matcher.find())
{
token = matcher.group();
}