Краткий ответ: iso-8859-1, если кодированные слова не используются в соответствии с RFC2047 (MIME).
Более длинное объяснение:
RFC2617, раздел 2 (HTTP-аутентификация) определяет basic-credentials :
basic-credentials = base64-user-pass
base64-user-pass = <base64 encoding of user-pass,
except not limited to 76 char/line>
user-pass = userid ":" password
userid = *<TEXT excluding ":">
password = *TEXT
Спецификация не должна читаться без обращения к RFC2616 (HTTP 1.1) для определений в BNF (как показано выше):
Данная спецификация является дополнением к спецификации HTTP / 1.1 2 .
Он использует расширенный раздел 2.1 БНФ этого документа и опирается на
как нетерминалы, определенные в этом документе, так и другие аспекты
спецификация HTTP / 1.1.
RFC2616, раздел 2.1 определяет ТЕКСТ (выделено мной):
Правило TEXT используется только для описания содержимого полей и значений
которые не предназначены для интерпретации анализатором сообщений. слова
из * TEXT МОЖЕТ содержать символы из наборов символов, отличных от
ISO-8859-1 только при кодировании в соответствии с правилами RFC 2047.
TEXT = <any OCTET except CTLs, but including LWS>
Так что это определенно iso-8859-1, если вы не обнаружите другую кодировку в соответствии с RFC2047 (MIME pt. 3) правилами:
// Username: Mike
// Password T€ST
Mike:=?iso-8859-15?q?T€ST?=
В этом случае знак евро в слове будет закодирован как 0xA4
в соответствии с iso-8859-15 . Насколько я понимаю, вы должны проверить эти закодированные разделители слов, а затем декодировать слова внутри на основе указанной кодировки. Если вы этого не сделаете, вы будете думать, что пароль =?iso-8859-15?q?T¤ST?=
(обратите внимание, что 0xA4
будет декодирован до ¤
при интерпретации как iso-8859-1).
Это мое понимание, я не могу найти более явного подтверждения, чем эти RFC. И некоторые из них кажутся противоречивыми. Например, одна из 4 заявленных целей RFC2047 (MIME, pt. 3) - переопределить:
формат сообщений, позволяющих ... текстовую информацию заголовка в
наборы символов, отличные от US-ASCII.
Но тогда RFC2616 (HTTP 1.1) определяет заголовок, используя правило TEXT, которое по умолчанию iso-8859-1. Означает ли это, что каждое слово в этом заголовке должно быть закодированным (то есть формой =?...?=
)?
Также актуально, ни один браузер этого не делает. Они используют utf-8 (Chrome, Opera), iso-8859-1 (Safari), системную кодовую страницу (IE) или что-то еще (например, только самый значимый бит из utf-8 в случае Firefox).
Редактировать: я только что понял, что этот ответ смотрит на проблему больше с точки зрения сервера.