Я пробовал много разных способов выполнить эту задачу:
- Левенштейн
- Нечеткий
- Дамерау Левенштейн
- Яро Винклер
- Smith Waterman Gotoh
Мой код:
<?php
echo levenshtein("ЛИЧНА КАРТАlоемптY CARO Пренные ЂУРЂЕВИЋ Hercinian","Михајло Ђурђевић")."<br>";
?>
Вывод:
введите описание изображения здесь
Все это правильно работает с английским sh языком. однако в моем случае у меня много разных языков [арабский c, китайский, русский и т. д.]. Некоторые буквы в этих языках похожи друг на друга.
Пример:
на арабском c «ت» & «ث»
на китайском «已» и «巳»
на русском «ћ» и «h»
Как оформить с этими буквами многобайтовый язык, чтобы получить хорошую точность?