Я использую API Amazon для получения описания книг.API возвращает ответы XML, а описание (с HTML) размечено очень плохо.Чтобы справиться с этим плохо размеченным описанием, которое часто нарушает макет моего сайта, я пытаюсь использовать HTML Tidy, чтобы «очистить его».
Чтобы предотвратить отображение «странных» символовна моей веб-странице, я думаю, мне нужно сказать Tidy, что такое входная кодировка и какая кодировка нужна.Я знаю, что хочу, чтобы вывод был UTF8.Однако я не уверен, как определить кодировку ввода (описание книги Amazon).
Я пробовал что-то вроде этого:
mb_detect_encoding($amazon_description);
Это помогло, но я 'я до сих пор иногда получаю странные символы (черный бриллиант с вопросительным знаком на нем: �).Я предполагаю, что я не могу правильно определить кодировку.
Есть предложения, что мне нужно сделать?
РЕДАКТИРОВАТЬ:
Это моетекущее решение:
$sanitized_amazon_markup = preg_replace('/[^\w`~!@#$%^&*()-=_+[\]{}|;\':",.\/<>? ]/', '', $sanitized_amazon_markup);
Я не уверен в этом, так как это может удалить вещи, которые я должен сохранить.