Я пытаюсь выучить шаблоны регулярных выражений для класса.Я делаю простой HTML Lexer / Parser.Я знаю, что это не лучший и не самый эффективный способ создания Lexer / Parser, но это только для понимания шаблонов Regex.
Итак, мой вопрос: как мне создать шаблон, который проверяет, не содержит ли строка какие-либо HTML-теги (например, <TAG>
) и не содержит никаких HTML-объектов (например, &ENT;
)?
Это то, что я мог придумать до сих пор, но это все еще не работает:
.+?(^(?:&[A-Za-z0-9#]+;)^(?:<.*?>))
РЕДАКТИРОВАТЬ: Единственная проблема заключается в том, что я не могу отменить финалВ результате мне нужно найти полный шаблон, который бы выполнил эту задачу, если это возможно, хотя это может быть не красиво.Я никогда не упоминал, но он должен соответствовать любому простому тексту на странице HTML.