Расстояние Левенштейна для неанглийских языков - PullRequest
1 голос
/ 26 марта 2012

На каких других языках, кроме английского, расстояние Левенштейна поддерживает его реализацию?

Я знаю, что язык должен иметь односимвольное представление (а не два или более символов, которые рассматриваются как единое целое, как в голландском?), и хотел узнать, какие языки попадают / не попадают в эту категорию.

Спасибо Abhishek S

1 Ответ

1 голос
/ 26 марта 2012

Расстояние Левенштейна определяется на произвольных строках в математическом смысле;это не зависит от языка.Вы должны просто убедиться, что вы вычисляете это на правильном уровне представления, разумным значением по умолчанию является уровень кодовых точек Unicode после некоторой нормализации .Если языку, с которым вы работаете, всегда нужны два символа для представления чего-либо значимого, то вычислите расстояние Левенштейна по парам символов.

[Я не уверен, что вы подразумеваете под множеством символов как «единая сущность»Голландский, но если вы имеете в виду ij ligature , это никогда не мешало мне применять Левенштейна к голландскому тексту:)]

...