Неизвестные персонажи - PullRequest
       9

Неизвестные персонажи

3 голосов
/ 21 сентября 2011

Я читаю строку из файла с кодировкой "UTF-8". И мне нужно сопоставить это с выражением. Первый символ файла - #, но в строке первый - '' (пустой символ). Я перевел это в байты с кодировкой "UTF-8", здесь это [-17, -69, -65]. Кто-нибудь знает, что это такое и как решить это с помощью regexprs?

1 Ответ

6 голосов
/ 21 сентября 2011

Некоторые редакторы (например, блокнот) добавляют подпись BOM (маску порядка байтов) при сохранении текста UTF-8. Вы должны проверить байты 0xEF, 0xBB, 0xBF перед чтением строки из такого файла и пропустить их, если они существуют.

Другой способ - не использовать блокнот для редактирования текстов UTF-8, получить другую программу, такую ​​как Notepad ++, Kate или любую другую, с помощью которой вы можете контролировать добавление спецификации.

...