Какая наиболее распространенная кодировка каждого языка? - PullRequest
18 голосов
/ 14 декабря 2011

Я занимаюсь разработкой приложения для чтения простого текста.Иногда приложение не может автоматически определить кодировку файла, поэтому пользователю необходимо выбрать кодировку из списка кодировок.Если этот список содержит все поддерживаемые кодировки, он будет слишком длинным.Я хочу предоставить упрощенный список, содержащий только наиболее распространенные кодировки для каждого языка.

Мне известны некоторые отношения:

  • Традиционный китайский: Big5
  • Упрощенный китайский: GB18030
  • Японский: Shift-JIS, EUC-JP
  • Русский: KOI8-R

Если вы знаете наиболее распространенную кодировку на любом другом языке, пожалуйста,скажи мне.

Ответы [ 3 ]

54 голосов
/ 16 декабря 2011

FWIW, вот локали Windows XP, сгруппированные по умолчанию для кодировки символов:

  • Big5 : ж_ХК, ж_МО, ж_ТВ
  • GBK (≈GB2312): zh_CN, zh_SG
  • Windows-31J (≈Shift_JIS): ja_JP
  • windows-874 (≈TIS-620, ISO-8859-11): th_TH
  • windows-949 (≈EUC-KR): ko_KR
  • windows-1250 : bs_BA, cs_CZ, hr_BA, hr_HR, hu_HU, pl_PL, ro_RO, sk_SK, sl_SI, sq_AL, sr_BA, sr_SP
  • windows-1251 : az_AZ, be_BY, bg_BG, kk_KZ, ky_KG, mk_MK, mn_MN, ru_RU, sr_BA, sr_SP, tt_RU, uk_UA, uz_UZ
  • windows-1252 (≈ISO-8859-1): af_ZA, arn_CL, ca_ES, cy_GB, da_DK, de_AT, de_CH, de_DE, de_LI, de_LU, en_AU, en_BZ, en_CA, en_CB, en_GB , en_IE, en_JM, en_NZ, en_PH, en_TT, en_US, en_ZA, en_ZW, es_AR, es_BO, es_CL, es_CO, es_CR, es_DO, es_EC, es_ES, es_GT, es_HN, es_MX, es_NI, es_S_P, ES_P, ES_PA , es_UY, es_VE, eu_ES, fi_FI, fil_PH, fo_FO, fr_BE, fr_CA, fr_CH, fr_FR, fr_LU, fr_MC, fy_NL, ga_IE, gl_ES, id_ID, is_IS, it_CH, ms_Y_B, it_B, it_B, it_IT, iU , nb_NO, nl_BE, nl_NL, nn_NO, ns_ZA, pt_BR, pt_PT, qu_BO, qu_EC, qu_PE, rm_CH, se_FI, se_NO, se_SE, sv_FI, sv_SE, sw_KE, znZA, zh_1
  • windows-1253 : el_GR
  • windows-1254 (≈ISO-8859-9): az_AZ, tr_TR, uz_UZ
  • windows-1255 : he_IL
  • windows-1256 : ar_AE, ar_BH, ar_DZ, ar_EG, ar_IQ, ar_JO, ar_KW, ar_LB, ar_LY, ar_MA, ar_OM, ar_QA, ar_SA, ar_SY, ar_TN, ar_Y_S, fa_IR
  • windows-1257 : et_EE, lt_LT, lv_LV
  • windows-1258 : vi_VN

и самых распространенных кодировок в Интернете :

  1. UTF-8 (89,2%)
  2. ISO-8859-1 (5,0%)
  3. Windows-1251 (1,6%)
  4. Сдвиг JIS (0,9%)
  5. Windows-1252 (0,8%)
  6. GB2312 (0,7%)
  7. EUC-KR (0,4%)
  8. EUC-JP (0,3%)
  9. GBK (0,3%)
  10. ISO-8859-2 (0,2%)
  11. Windows-1250 (0,2%)
  12. ISO-8859-15 (0,1%)
  13. Windows-1256 (0,1%)
  14. ISO-8859-9 (0,1%)
  15. Big5 (0,1%)
  16. Windows-1254 (0,1%)
  17. Windows-874 (0,1%)
2 голосов
/ 20 декабря 2011

Черновик HTML5 содержит таблицу кодировок по умолчанию для языков , отражающую то, что считается распространенным. Однако обратите внимание, что предполагается, что он основан на пользовательской локали, т.е. на языке браузера или операционной системы, а не на языке документа - очевидно, потому что последний обычно неизвестно, по крайней мере, до того, как вы действительно прочитаете документ, исходя из некоторых предположений о кодировке.

Я думаю, вы могли бы на практике скопировать список кодировок в популярном веб-браузере. Если он хорошо работает там, он, вероятно, работает достаточно хорошо в вашем приложении. Браузеры делают некоторые умные вещи со списком и его порядком, но на практике, я думаю, было бы достаточно иметь короткий список, такой как utf-8, utf-16, windows-1252 и, возможно, несколько других, за которыми следует опция получить полный список. Обратите внимание, что хотя utf-16 практически не используется и бесполезен для веб-страниц, он является обычным для обычных текстовых файлов. Важно правильно назвать кодировки, желательно с общим английским (или другим языком) именем вместе с именем «charset» IANA в скобках - так же, как это делают браузеры.

1 голос
/ 15 декабря 2011

Я бы порекомендовал структуру меню, аналогичную используемой в браузерах. Например, Firefox: Вид -> Кодировка символов -> Дополнительная кодировка -> Восточная Азия -> Китайский / Японский / Корейский. (ладно, проще, если ты просто посмотришь). И Просмотр -> Кодировка -> Еще в IE.

Может показаться слишком глубоким и неуклюжим, но это очень знакомо. И не сбрасывает полезные кодировки (почему KOI8-R для русского, например? А что будет, если я использую Windows 1251 и не попал в список?)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...