После небольшого исследования того, как люди тяготеют к заголовкам, я заметил, что часто не хватает способов справиться с неанглийскими заголовками.
Кодировка URL очень ограничена. Смотри http://www.blooberry.com/indexdot/html/topics/urlencoding.htm
Так, например, как люди справляются с титульными слагами для таких вещей, как
"Una lágrima cayó en la arena"
Можно придумать разумную таблицу для индоевропейских языков, т.е. вещи, которые могут быть закодированы через ISO-8859-1. Например, таблица преобразования будет переводить 'á' => 'a', поэтому слаг будет
"уна-Lagrima-Кайо-ан-ла-Арена"
Тем не менее, я использую Unicode (в частности, использую кодировку UTF-8), поэтому нет никаких гарантий относительно того, какие коды кода я собираюсь получить (я должен подготовиться к вещам, которые не могут быть ISO-8859- 1 закодировано.
Я нюшка. Как справиться с этим? Должен ли я придумать таблицу преобразования для символов в диапазоне ISO_8859-1 (<255) и отбросить все остальное? </p>
РЕДАКТИРОВАТЬ : Чтобы получить немного больше контекста, априори, я на самом деле не ожидаю, чтобы slugify данных на не индоевропейских языках, но я хотел бы иметь план, если я столкнусь с такими данными ,
Таблица преобразования для расширенного ASCII была бы хорошей. Есть указатели?
Кроме того, поскольку люди спрашивают, я использую python, работающий на Google App Engine