Мудрое совпадение предложений - PullRequest
0 голосов
/ 29 апреля 2011

У меня есть строка для сравнения с другим набором строк, и мне нужно получить оценку (процент) равенства этих двух (например, один к одному: 100% и полностью отличается: 0%). Но проблема в том, что эти строки состоят из японских символов (в японских предложениях нет пробелов). Однако иногда он состоит из нескольких числовых символов (например, 2 мг).

Каков был бы наиболее подходящий способ выполнить это?

Ответы [ 2 ]

2 голосов
/ 29 апреля 2011

Японские символы по-прежнему Unicode.

Используйте один из стандартных алгоритмов сравнения строк, например Расстояние Левенштейна .

0 голосов
/ 29 апреля 2011

В дополнение к другим комментариям, если вы планируете учесть эквивалентность кандзи и его хираганы, все очень быстро усложняется. Прежде чем сравнивать, вы можете использовать фонетизацию строк, скажем, ромадзи или репрезентативных токенах.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...