Трудно объяснить вопрос.Преобразование / ограничение строки определенным набором символов без удаления - PullRequest
0 голосов
/ 29 июня 2011

Я сталкивался с этой проблемой несколько раз, и теперь я наконец решил спросить, надеясь, что кто-то знает, о чем я говорю.1003 *

ÆØÅ => AOA
ÉÈÊ => EEE
üÿï => uyi

На данный момент наиболее близкие критерии поиска я могу ввести в Google следующим образом:

  • Что-то похожее на base64 / URLEncode
  • AЗвуковой алгоритм, такой как Метафон или Soundex

Это не сработало, как ожидалось.Казалось, что нет никакой корреляции между ÉÈÊ и EEE, отличной от этой и ÆØÅ.Таким образом, против E все шесть символов были бы преобразованы в E, что было не той точностью, которую я искал.

  • Преобразование из исходной кодировки (например, ASCII) в кодировку/ кодирование, состоящее только из буквенно-цифровых символов

Я не очень уверен в этом подходе, поскольку кодирование должно быть в состоянии распознать, скажем E, как предка / ближайшего (буквенно-цифрового) соседаÈ.

Мне кажется, что я говорю много слов вокруг стадиона.

Кто-нибудь понимает, чего я пытаюсь достичь, или знает, что это за метод?"Я ищу, называется?

Любые идеи / мысли очень ценятся (и я имею в виду любой ),

  • Мик

1 Ответ

0 голосов
/ 29 июня 2011

Я подозреваю, что вам придется рассмотреть базу данных кодовых точек Unicode, сопоставляя их с их ближайшим эквивалентом US-ASCII (где это возможно).Я полагаю, что это будет относительно разреженная карта, поскольку большинство кодовых точек Unicode не имеют эквивалента US-ASCII.

Надеюсь, в этом ответе есть несколько ключевых слов, которые помогут вам найти то, что вы хотите.

...