Я использую Amazon Web Service для получения описаний продуктов различных товаров. Проблема состоит в том, что контент Amazon содержит разметку, которая иногда губительна для макета моей веб-страницы (например, незакрытые DIV и т. Д.).
Я хочу очистить контент, который я получаю от Amazon. Мое решение было бы сделать следующее (мой первоначальный список до сих пор):
div
span
p
ul
ol
style
Прежде чем я попытаюсь создать свое решение, мне интересно, есть ли у кого идея получше (или уже существующее решение). Спасибо.
Лучшая идея или нет:
Удалить лишние пробелы:
preg_replace('/\s+/', ' ', trim($v))
Удалить атрибуты из элементов HTML:
preg_replace('/<([^\s>]+) [^>]+>/', '<$1>', $v)
Удалить определенные элементы:
preg_replace('/<\/?(div|span)[^>]*>/', '', $v)