Question

У меня есть вопрос о кодировке, и я хотел бы попросить о помощи. Я замечаю, что если в качестве кодировки я выберу «UTF-8», то здесь будут (как минимум) две двойные кавычки " и “. Но когда я выбираю «ISO-8859-1» в качестве кодировки, я вижу, что последняя двойная кавычка становится ¡°, а иногда, например, â€œ.

Может ли кто-нибудь объяснить, почему это так? Как можно сопоставить “ и заменить его на ", используя regexp в perl?

Большое спасибо.

Nemo · Answer 1 · 11 июня 2011

ISO-8859-1 - кодирование одного байта на символ.Необычные двойные кавычки Unicode не входят в набор символов ISO-8859-1.Итак, вы видите многобайтовый символ, представленный в виде последовательности байтов ISO-8859-1.

Чтобы соответствовать этим странным вещам, см. Справочную страницу perlunicode , особенно \escape-последовательности x {...} и \ N {...}.

Чтобы ответить на ваш вопрос, попробуйте \ x {201C}, чтобы сопоставить УНИКАЛЬНЫЙ ЛЕВОЙ ДВОЙНОЙ ЦИТАТИЧЕСКОЙ МАРКИРОВКИ и \ x {201D}, чтобы соответствоватьПРАВАЯ ДВОЙНАЯ ЦИТАТА.Вы пропустили последнее в своем вопросе: -).

[обновление]

Я должен был предоставить свою ссылку ... У какого-то хорошего джентльмена в Великобритании есть страница на ASCII иЮникод кавычки .Простая ванильная двойная кавычка ASCII / ISO-8859-1 называется просто QUOTATION MARK.

вопрос кодировки в Perl

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

вопрос кодировки в Perl

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы