Какие конкретные дезинфицирующие функции используются в URL-адресах Викимедиа? - PullRequest
0 голосов
/ 31 марта 2012

Я пишу простой запрос для поиска URL-адресов на commons.wikimedia.org, но я не могу понять, какие конкретные правила очистки следует использовать, чтобы получить точные имена файлов, используемых там.

Например: флаг Кот-д'Ивуара на французском языке указан как Drapeau_de_la_Côte_d%27Ivoire, поэтому я понял, что апострофы дезинфицируются, а обычные ô - нет. Я видел много других имен файлов с сохранением специальных символов.

Можно ли предположить, что все специальные символы сохранены, а все знаки препинания и / или не-буквы очищены?

1 Ответ

2 голосов
/ 31 марта 2012

Википедия использует все экранированные URL-адреса в формате %nnnn (в соответствии со всеми RFC-адресами URL), и ваш браузер выполняет всю работу за вас, просто чтобы URL-адреса были более дружественными.

Так что, хотя мой хром показывает http://en.wikipedia.org/wiki/Flag_of_Côte_d'Ivoire URL, первоначально это было http://en.wikipedia.org/wiki/Flag_of_C%C3%B4te_d'Ivoire

...