Я работаю с PHP, получаю html с веб-сайтов, преобразовываю их в обычный текст и сохраняю их в базу данных.
Их необходимо сохранить в базе данных в utf-8.Моя первая проблема заключается в том, что я не знаю исходную кодировку, как лучше всего кодировать в utf-8 из неизвестной кодировки?
2-й вопрос - это преобразование HTML в простой текст.Я попытался использовать html2text, но он испортил все внешние символы UTF.
Каков наилучший подход?
Редактировать: Кажется, часть о простом тексте недостаточно ясна.Что мне не нужно, чтобы просто раздеть теги HTML.Я хочу удалить теги, сохраняя при этом некую структуру документа.Теги <p>
, <li>
преобразуются в разрывы строк и т. Д., А теги типа <script>
будут полностью удалены с их содержимым.