Обнаружение сходства между неанглийскими текстами UTF-8 в большой базе данных (аналогично SOUNDEX) - PullRequest
0 голосов
/ 01 декабря 2018

У меня проблема с предварительной обработкой текста, и я обнаружил SOUNDEX () в mysql, и, насколько я понимаю, этот алгоритм хорошо работает в английских словах.

Однако я ищу такие инструменты для работы внеанглийские языки, такие как арабский и персидский алфавиты на стороне базы данных, и в эффективном процессе я не хочу проверять сходства в цикле.

Существует ли какое-либо решение, позволяющее найти сходные множественные тексты в большой базе данных и способное полностью обрабатывать эти алфавиты?

Нет необходимости, чтобы решение было связано с ИИ или машинным обучением,но я хочу знать, сколько и сколько текстов связано.

Спасибо заранее.

...