конвертировать кодировку из кодировки iso-8859-1 в UTF-8 - PullRequest
1 голос
/ 31 марта 2011

Я пытаюсь завершить экспорт веб-сайта из 1000 статей (ASP SQL Server) с категориями и тегами в блог WordPress.Первоначально статьи были написаны в Microsoft Word и содержали много символов, отличных от UTF-8.Затем они были скопированы и вставлены в Microsoft Access.Статьи в настоящее время хранятся в базе данных SQL Server 2008 и отображаются на веб-сайте с использованием кодировки iso-8859-1

. Я использую стандартный файл WordPress для импорта / экспорта (файл WordPress eXtended RSS (WXR))который я скопировал из файла, используемого при экспорте блога из WordPress.Для этого файла требуется кодировка UTF-8.

Моя проблема заключается в том, что символы iso-8859-1 портят импортер, и многие статьи импортируются не полностью.Такие символы, как эти

naïve , 
and funny characters such as “ ’

Мой вопрос: как мне убрать весь текст, я могу создать функцию замены, чтобы убрать забавные цитаты, но всегда будет случайное слово, подобное наивному, которое вызоветпроблема?

Какой самый простой способ преобразовать кодировку всего текста из iso-8859-1 в UTF-8?

1 Ответ

1 голос
/ 08 августа 2011

См. http://en.wikipedia.org/wiki/Iconv:

iconv - это компьютерная программа и стандартизированный API, используемый для преобразования между различными кодировками символов.

Если вы попали в ловушку на чистой Windows (то есть даже не Cygwin), и вы не согласны с тем, что, вероятно, проще всего скопировать файлы в систему Unix и выполнить там преобразование, http://www.unicodetools.com/ имеет набор инструментов для преобразования.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...