Question

Требуется одно регулярное выражение для поиска

двойных пробелов
табуляции
дополнительный ввод (разрыв строки / возврат каретки)
строкаразрыв между тегом
пробел после / перед закрытием тега

в документе XML.

jfs · Answer 1 · 12 ноября 2011

Как правило, вам нужен xml-анализатор для обработки XML-документов. Регулярные выражения недостаточно мощны, чтобы обрабатывать все случаи .

Использование синтаксиса perl для регулярных выражений:

m{
  [ ][ ]  # double spaces
  |
  \t    # tab
  |    
  $\s*$  # extra enter separated only by whitespace. Note: requires `m` flag
  |  
  # XXX: it works only on simple xml
  <[^<>]*$[^<>]*> # line break inside tag
  |
  # XXX: it works only on simple xml
  [ ]</[^<>]+> |
  </[^<>]+>[ ] # space after/before closing tag
}mxg;

демо

Jason · Answer 2 · 11 ноября 2011

Извините, это не будет значительным ответом, но, возможно, я могу немного помочь. Теперь для шагов 1, 2 и 3 не составит труда найти соответствие как таковое

вкладка \ t

новые строки \ r или \ n

Пробел (пробел, табуляция или новая строка) равен \ s

т. 1 вкладка: (\ t) два пробела = (\ s \ s) или (\ s {2}) и дополнительная строка, как правило, находится по двум разрывам строки подряд, но иногда они могут быть разделены пробелами, так что следите за этим ... (\ r \ s * \ r) | (\ n \ s * \ n)

чтобы сложить все вместе, шаги 1/2/3 с группами захвата:

  (\r\s*\r)|(\n\s*\n)|(\t)|(\s{2})

Но как насчет 4 и 5?

Что ж, им обоим необходимо иметь возможность возвращаться к регулярному выражению в том случае, если у <нет соответствующего> или он не является частью структуры документа. Это может произойти с неверным XML, или в разделах CDATA и тому подобном. Это становится сложным, но может быть сделано с помощью рекурсивных регулярных выражений. Однако я не знаю библиотеки регулярных выражений в c ++, которая поддерживает рекурсию. Извините, но было бы намного проще просто проанализировать ваши строковые данные вручную.

Теперь некоторые диалекты регулярных выражений отличаются, поэтому ваш пробег может отличаться. Для справки, хотя я склонен использовать http://www.regular -expressions.info / quickstart.html

Регулярное выражение, необходимое для документа XML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Регулярное выражение, необходимое для документа XML

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов