Я пишу простой запрос для поиска URL-адресов на commons.wikimedia.org, но я не могу понять, какие конкретные правила очистки следует использовать, чтобы получить точные имена файлов, используемых там.
Например: флаг Кот-д'Ивуара на французском языке указан как Drapeau_de_la_Côte_d%27Ivoire
, поэтому я понял, что апострофы дезинфицируются, а обычные ô
- нет. Я видел много других имен файлов с сохранением специальных символов.
Можно ли предположить, что все специальные символы сохранены, а все знаки препинания и / или не-буквы очищены?