Не зная вашего языка или среды, вот некоторые выражения perl. Надеюсь, это даст вам правильную идею для вашего приложения.
Ваше регулярное выражение для захвата текстового содержимого тега будет выглядеть примерно так:
m/>([^<]*)</
Это будет захватывать содержимое в каждом теге. Вам придется зацикливаться на совпадении, чтобы извлечь весь контент. Обратите внимание, что это не учитывает самозавершающиеся теги. Для этого вам понадобится движок регулярных выражений с негативными взглядами. Не зная вашей среды, трудно сказать, будет ли она поддерживаться.
Вы также можете просто удалить все теги из вашего источника, используя что-то вроде:
s/<[^>]*>//g
Также, в зависимости от вашей среды, если вы сможете использовать библиотеку XML-синтаксического анализа, это значительно облегчит вашу жизнь. В конце концов, используя подход регулярных выражений, вы теряете все, что вам действительно предлагает XML (структурированные данные, контекстная осведомленность и т. Д.).