Question

Я читаю строку из файла с кодировкой "UTF-8". И мне нужно сопоставить это с выражением. Первый символ файла - #, но в строке первый - '' (пустой символ). Я перевел это в байты с кодировкой "UTF-8", здесь это [-17, -69, -65]. Кто-нибудь знает, что это такое и как решить это с помощью regexprs?

Yarg · Answer 1 · 21 сентября 2011

Некоторые редакторы (например, блокнот) добавляют подпись BOM (маску порядка байтов) при сохранении текста UTF-8. Вы должны проверить байты 0xEF, 0xBB, 0xBF перед чтением строки из такого файла и пропустить их, если они существуют.

Другой способ - не использовать блокнот для редактирования текстов UTF-8, получить другую программу, такую как Notepad ++, Kate или любую другую, с помощью которой вы можете контролировать добавление спецификации.

Неизвестные персонажи

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Неизвестные персонажи

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы