Способ конвертировать символ с акцентом в URL-адрес? - PullRequest
3 голосов
/ 19 января 2012

Существует ли способ .net для преобразования таких символов, как: úüãáâàçéêíõóô áéíñóúü¿¡? В похожее без акцентированное письмо.

например, ú в u

Мой вопрос похож наПредварительный текст: Обработка оптимизированного для SEO URL-адреса с использованием неанглоязычных символов

Если нет, то, я думаю, я всегда могу исправить функцию поиска и замены.

Ответы [ 2 ]

3 голосов
/ 19 января 2012

Смотрите это сообщение от Майкла Каплана

    static string RemoveDiacritics(string stIn) {
      string stFormD = stIn.Normalize(NormalizationForm.FormD);
      StringBuilder sb = new StringBuilder();

      for(int ich = 0; ich < stFormD.Length; ich++) {
        UnicodeCategory uc = CharUnicodeInfo.GetUnicodeCategory(stFormD[ich]);
        if(uc != UnicodeCategory.NonSpacingMark) {
          sb.Append(stFormD[ich]);
        }
      }

      return(sb.ToString().Normalize(NormalizationForm.FormC));
    }
0 голосов
/ 19 января 2012

вот еще один пример из предыдущего / похожего вопроса

public static IEnumerable<char> RemoveDiacriticsEnum(string src, bool compatNorm, Func<char, char> customFolding)
{
    foreach(char c in src.Normalize(compatNorm ? NormalizationForm.FormKD : NormalizationForm.FormD))
    switch(CharUnicodeInfo.GetUnicodeCategory(c))
    {
      case UnicodeCategory.NonSpacingMark:
      case UnicodeCategory.SpacingCombiningMark:
      case UnicodeCategory.EnclosingMark:
        //do nothing
        break;
      default:
        yield return customFolding(c);
        break;
    }
}
public static IEnumerable<char> RemoveDiacriticsEnum(string src, bool compatNorm)
{
  return RemoveDiacritics(src, compatNorm, c => c);
}
public static string RemoveDiacritics(string src, bool compatNorm, Func<char, char> customFolding)
{
  StringBuilder sb = new StringBuilder();
  foreach(char c in RemoveDiacriticsEnum(src, compatNorm, customFolding))
    sb.Append(c);
  return sb.ToString();
}
public static string RemoveDiacritics(string src, bool compatNorm)
{
  return RemoveDiacritics(src, compatNorm, c => c);
}

Здесь у нас есть значение по умолчанию для проблемных ситуаций, упомянутых выше, которое просто игнорирует их. Мы также разделили построение строки на генерацию перечисления символов, поэтому мы не должны быть расточительными в тех случаях, когда нет необходимости манипулировать строкой в ​​результате (скажем, мы собирались записать символы для вывода в следующий раз или сделать какой-то дополнительный символ манипуляциями).

Пример случая для чего-то, где мы хотели также преобразовать l и L в l и L, но не имели других специализированных задач, могли бы использовать:

private static char NormaliseLWithStroke(char c)
{
  switch(c)
  {
     case 'l':
       return 'l';
     case 'L':
       return 'L';
     default:
       return c;
  }
}
...