2 регулярные выражения работают правильно независимо друг от друга, но не в сочетании - PullRequest
1 голос
/ 24 апреля 2020

Я хотел бы разделить строку на основе знаков пунктуации, сохранив при этом пунктуацию, а также, если строка заключена в фигурные скобки, удалить фигурные скобки, но не слово.

Мое текущее регулярное выражение работает ПОЧТИ идеально. Он не фиксирует пунктуацию, если это последний символ в строке. Спасибо за вашу помощь

// const re = /([.!\"'/$:\d]+)/g;
// const re = /{(.*?)}/g

const re =  /([.!\"'/$:\d]+)| {(.*?)}/g

const delimiter= new RegExp(re);
const sentences = sentence.split(delimiter);
sentences = sentences.filter(Boolean);

console.log(sentences)


Ввод:

const sentence = `Lorem ipsum {dolor sit} amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et {dolore magna aliqua}. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat! Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum?`

Фактический вывод:

[
  'Lorem ipsum',
  'dolor sit',
  ' amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et',
  'dolore magna aliqua',
  '.',
  'Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat',
  '!',
  'Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur',
  '.',
  'Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum?'
]

Желаемый вывод:

[
  'Lorem ipsum',
  'dolor sit',
  ' amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et',
  'dolore magna aliqua',
  '.',
  'Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat',
  '!',
  'Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur',
  '.',
  'Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum',
  '?'
]

1 Ответ

0 голосов
/ 24 апреля 2020

Вы можете использовать

/\s*{([^{}]*)}|([`!@#$%^&*()_+=[\]{};':"\\|.<>\/?~-])/

Или - немного более компактно:

/\s*{([^{}]*)}|(?!,)([!-\/:-@[-`{-~])/

Оба шаблона [`!@#$%^&*()_+=[\]{};':"\\|.<>\/?~-] и (?!,)([!-\/:-@[-`{-~]) соответствуют всем пунктуациям и символам ASCII, кроме ,. Основное отличие состоит в части \s*: ваш пробел до {{ был обязательным шаблоном, где *, \s* соответствует нулю или большему количеству вхождений пробельных символов.

JS demo:

var sentence = "Lorem ipsum {dolor sit} amet, consectetur adipiscing elit, sed do eiusmod tempor incididunt ut labore et {dolore magna aliqua}. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat! Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum?";
var delimiter =  /\s*{([^{}]*)}|([`!@#$%^&*()_+=[\]{};':"\\|.<>\/?~-])/;
var sentences = sentence.split(delimiter).filter(Boolean);
console.log(sentences);
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...