Ищите способ сопоставить собственные существительные с векторами - PullRequest
0 голосов
/ 26 октября 2019

Я ищу метод для представления собственных имен в векторах и правильных орфографических ошибок.

Например, у меня есть база данных имен собственных (таких как Джеймс, Ребекка, Майкл и т. Д.), И я хотел бы отобразить эти имена в векторах.

Я бы также имел набор записей с орфографическими ошибками этих имен (например, Ребека, Микель и т. Д.) И хотел бы также отобразить их в векторы.

Цель состоит в том, чтобы использовать меру сходства между вектором имени с ошибкой и каждым вектором правильно написанных имен и идентифицировать правильное имя.

Я не могу найти какой-либо метод НЛП, который занимается такой проблемой.

Спасибо!

1 Ответ

0 голосов
/ 29 октября 2019

Итак, цель - исправление орфографии? А у тебя нет контекста, только слова? Я предлагаю использовать кмерское расстояние. То есть для подходящих значений k каждое слово представлено набором подстрок длины k. Расстояние между словами - это квадрат (1-J), где J - подобие Жакара этих множеств. Построить ближайшего соседа дерево слов. Тогда предлагаемое исправление является ближайшим соседом слова опечатки.

Вы должны выбрать значения для k экспериментом, но {3,4,5} будет хорошей отправной точкой.

Тамявляются альтернативами формуле sqrt (1-J), но эта формула имеет то преимущество, что является естественной метрикой для RKHS, вызванного сходством Жакара.

...