Короткий ответ: не надо. Вокруг SO есть прекрасная напыщенная речь, объясняющая, почему анализ html с регулярными выражениями - плохая идея. По сути, это сводится к тому, что «html не является регулярным языком, поэтому регулярные выражения не подходят для его анализа». Что вам нужно, это что-то, что знает DOM.
Как сказал @hsz, SimpleXML - хороший вариант, если вы знаете, что ваш html проверяется как XML. Лучше может быть DOMDocument :: loadHTML , который не требует хорошо сформированного HTML. Как только ваш HTML-объект находится в объекте DOMDocument, вы можете легко извлечь то, что вам нужно. Проверьте документы здесь .