Расстояние Левенштейна определяется на произвольных строках в математическом смысле;это не зависит от языка.Вы должны просто убедиться, что вы вычисляете это на правильном уровне представления, разумным значением по умолчанию является уровень кодовых точек Unicode после некоторой нормализации .Если языку, с которым вы работаете, всегда нужны два символа для представления чего-либо значимого, то вычислите расстояние Левенштейна по парам символов.
[Я не уверен, что вы подразумеваете под множеством символов как «единая сущность»Голландский, но если вы имеете в виду ij ligature , это никогда не мешало мне применять Левенштейна к голландскому тексту:)]