Замена специальных символов Word на их «нормальные» значения по умолчанию - PullRequest
1 голос
/ 16 июня 2011

Поскольку пользователи копируют текст вставки из Word, который выглядит следующим образом:

 “What’s the matter?” PART 2– A Review”

В итоге получается:

 %93What%92s the matter?%94 PART 2%96 A Review%94

Мне нужно, чтобы оно было:

 "What's the matter?" PART 2- A Review"

Я ищу библиотеку PHp, которая преобразует такой текст и делает это стандартизированным способом, потому что здесь гораздо больше символов, чем перечисленных здесь, например, (c) символ авторского права и т. Д..

Ответы [ 4 ]

1 голос
/ 16 июня 2011

Вы хотите iconv.Функция iconv() позволяет выполнять транслитерацию от специальных символов, таких как фигурные кавычки в Latin1 (ISO 8859-1), до соответствующего символа в любой кодировке, которую вы используете, например, фигурные кавычки в UTF-8или прямые кавычки (') в ASCII.

Если это веб-форма, браузер, скорее всего, уже конвертирует из Latin1 в UTF-8.Например, если вы хотите сохранить его в ASCII, вы должны использовать это:

$ascii = iconv('UTF-8', 'ASCII//IGNORE//TRANSLIT', $utf8);
0 голосов
/ 09 октября 2013

Попробуйте это

function msword_conversion($str) 
{ 

    $invalid = array('Š'=>'S', 'š'=>'s', 'Đ'=>'Dj', 'đ'=>'dj', 'Ž'=>'Z', 'ž'=>'z',
    'Č'=>'C', 'č'=>'c', 'Ć'=>'C', 'ć'=>'c', 'À'=>'A', 'Á'=>'A', 'Â'=>'A', 'Ã'=>'A',
    'Ä'=>'A', 'Å'=>'A', 'Æ'=>'A', 'Ç'=>'C', 'È'=>'E', 'É'=>'E', 'Ê'=>'E', 'Ë'=>'E',
    'Ì'=>'I', 'Í'=>'I', 'Î'=>'I', 'Ï'=>'I', 'Ñ'=>'N', 'Ò'=>'O', 'Ó'=>'O', 'Ô'=>'O',
    'Õ'=>'O', 'Ö'=>'O', 'Ø'=>'O', 'Ù'=>'U', 'Ú'=>'U', 'Û'=>'U', 'Ü'=>'U', 'Ý'=>'Y',
    'Þ'=>'B', 'ß'=>'Ss', 'à'=>'a', 'á'=>'a', 'â'=>'a', 'ã'=>'a', 'ä'=>'a', 'å'=>'a',
    'æ'=>'a', 'ç'=>'c', 'è'=>'e', 'é'=>'e', 'ê'=>'e',  'ë'=>'e', 'ì'=>'i', 'í'=>'i',
    'î'=>'i', 'ï'=>'i', 'ð'=>'o', 'ñ'=>'n', 'ò'=>'o', 'ó'=>'o', 'ô'=>'o', 'õ'=>'o',
    'ö'=>'o', 'ø'=>'o', 'ù'=>'u', 'ú'=>'u', 'û'=>'u', 'ý'=>'y',  'ý'=>'y', 'þ'=>'b',
    'ÿ'=>'y', 'Ŕ'=>'R', 'ŕ'=>'r', "`" => "'", "´" => "'", "„" => ",", "`" => "'",
    "´" => "'", "“" => "\"", "”" => "\"", "´" => "'", "’" => "'", "{" => "",
    "~" => "", "–" => "-", "’" => "'");

    $str = str_replace(array_keys($invalid), array_values($invalid), $str);

    return $str;
}
0 голосов
/ 16 июня 2011

Как упоминалось ранее, urldecode() - это функция, которую вы ищете.В основном контент был закодирован для безопасного использования URL.Имейте в виду, однако, что в слове используются символы кавычек в стиле 66 и 99, а не стандартные строки кавычек ", используемые в большинстве HTML-содержимого - поэтому может также стоить сделать str_replace() для этих значений, чтобы вам не нужно былобеспокоиться о кодировке символов, когда страница отображается пользователю с этим содержимым.

0 голосов
/ 16 июня 2011

Я думаю, что вы ищете, urldecode ()

...