Ожидается ли .txt в кодировке UTF-8 в эти дни? Должен ли я закончить это с .utf8? - PullRequest
0 голосов
/ 05 февраля 2020

Я создаю текстовые файлы. Я не использую ASCII / ANSI, но кодировку UTF-8, поскольку год 2020, а не 1995. Unicode/UTF-8 сейчас очень хорошо зарекомендовал себя, и было бы безумием предполагать, что в наши дни поддержка UTF-8 отсутствует.

В то же время у меня есть ощущение, что текстовые файлы (.txt) связаны с кодировкой ANSI/ASCII, как, например, потому что она выглядит примитивно и должна быть примитивна в используемой кодировке.

Тем не менее, я sh буду использовать все виды символов Юникода, а не ограничиваться только базовыми c ANSI/ASCII.

Поскольку простой текст не имеет метаданных, таких как HTML да, нет (как мне известно) никакого способа сказать читателю, что этот .txt использует Unicode/UTF-8, и из того, что я узнал, вы не можете detect это надежно, но должны делать «образованные догадки».

Я видел, как люди добавляли .utf8 в конец текстовых файлов раньше, но это кажется уродливым, и я сильно сомневаюсь, насколько широко это поддерживается ...

Должен ли я это сделать?

test.txt.utf8

Всякий раз, когда файл .txt использует UTF-8? Или людям просто будет труднее открывать их без реальной выгоды с точки зрения определения его как UTF-8?

1 Ответ

0 голосов
/ 05 февраля 2020

Вы не уточняете вариант использования сгенерированных вами текстовых файлов, но на самом деле «способ сообщить читателю, что этот .txt использует Unicode / UTF-8» - это Порядок следования байтов в начало текстового файла. По тому, как он представлен в реальных байтах, он сообщает читателю, какую кодировку Unicode использовать для чтения файла.

Из FAQ по Unicode :

Bytes           Encoding Form
00 00 FE FF     UTF-32, big-endian
FF FE 00 00     UTF-32, little-endian
FE FF           UTF-16, big-endian
FF FE           UTF-16, little-endian
EF BB BF        UTF-8
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...