У меня проблема с предварительной обработкой текста, и я обнаружил SOUNDEX () в mysql, и, насколько я понимаю, этот алгоритм хорошо работает в английских словах.
Однако я ищу такие инструменты для работы внеанглийские языки, такие как арабский и персидский алфавиты на стороне базы данных, и в эффективном процессе я не хочу проверять сходства в цикле.
Существует ли какое-либо решение, позволяющее найти сходные множественные тексты в большой базе данных и способное полностью обрабатывать эти алфавиты?
Нет необходимости, чтобы решение было связано с ИИ или машинным обучением,но я хочу знать, сколько и сколько текстов связано.
Спасибо заранее.