Question

Я хочу обнаруживать и заменять искаженные символы UTF-8 пустым пространством с помощью сценария Perl при загрузке данных с помощью SQL * Loader. Как я могу это сделать?

Constantin · Answer 1 · 15 октября 2008

Рассмотрим Python. Он позволяет расширять кодеки пользовательскими обработчиками ошибок, поэтому вы можете заменить некодируемые байты на все, что захотите.

import codecs
codecs.register_error('spacer', lambda ex: (u' ', ex.start + 1))
s = 'spam\xb0\xc0eggs\xd0bacon'.decode('utf8', 'spacer')
print s.encode('utf8')

Это печатает:

spam  eggs bacon

Mike G. · Answer 2 · 15 октября 2008

RFC 3629 описывает структуру символов UTF-8. Если вы посмотрите на это, то увидите, что найти недопустимые символы довольно просто, И что следующую границу символа всегда легко найти (это символ <128 или один из начальных маркеров «длинного символа», с начальными битами 110, 1110 или 11110). </p>

Но BKB, вероятно, является правильным - самый простой ответ - позволить Perl сделать это за вас, хотя я не уверен, что делает Perl, когда обнаруживает неправильный utf-8 с этим фильтром.

Jon Skeet · Answer 3 · 15 октября 2008

РЕДАКТИРОВАТЬ: (Удален бит о загрузчике SQL, так как он больше не актуален.)

Одной из проблем будет выяснение того, что считается «концом» искаженного символа UTF-8. Легко сказать, что незаконно, но может быть не очевидно, где начинается следующий юридический символ.

Как обнаружить неправильно сформированные символы UTF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как обнаружить неправильно сформированные символы UTF

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов