Я пытаюсь завершить экспорт веб-сайта из 1000 статей (ASP SQL Server) с категориями и тегами в блог WordPress.Первоначально статьи были написаны в Microsoft Word и содержали много символов, отличных от UTF-8.Затем они были скопированы и вставлены в Microsoft Access.Статьи в настоящее время хранятся в базе данных SQL Server 2008 и отображаются на веб-сайте с использованием кодировки iso-8859-1
. Я использую стандартный файл WordPress для импорта / экспорта (файл WordPress eXtended RSS (WXR))который я скопировал из файла, используемого при экспорте блога из WordPress.Для этого файла требуется кодировка UTF-8.
Моя проблема заключается в том, что символы iso-8859-1 портят импортер, и многие статьи импортируются не полностью.Такие символы, как эти
naïve ,
and funny characters such as “ ’
Мой вопрос: как мне убрать весь текст, я могу создать функцию замены, чтобы убрать забавные цитаты, но всегда будет случайное слово, подобное наивному, которое вызоветпроблема?
Какой самый простой способ преобразовать кодировку всего текста из iso-8859-1 в UTF-8?