Сравнение строк для изменчивости - PullRequest
0 голосов
/ 09 марта 2019

Я использую механизм речевой транскрипции, и он возвращает результаты с соответствующей оценкой достоверности того, что данный результат является правильным. Я хотел бы искать шаблоны, которые показывают сходство между альтернативами (подразумевая высокую вероятность того, что подстрока была правильно транскрибирована) и определяют, какие буквы / индексы отличаются среди альтернатив (подразумевая меньшую вероятность того, что они были правильно транскрибированы).

Например, "price" - правильная транскрипция, и последовательность "ric" будет помечена как вероятная правильная:

price,0.8999
perica,0.6221
price,0.7847
perice,0.7208
pricee,0.7843
parice,0.6866
parica,0.5879
pricea,0.7861
brice,0.6957
prize,0.7438
pric,0.8811
terica,0.4677
brica,0.5805
pericee,0.6420
priceee,0.6976
prace,0.7502
trica,0.5805
terice,0.5664
trice,0.6957
prico,0.7828 

Кроме того, альтернативы должны быть взвешены по отношению к их доверительному баллу, чтобы избежать выбросов (альтернатив с низким доверительным доверием) от столь же значительного воздействия, как альтернативы с высоким доверительным доверием.

Смысл этого в том, чтобы иметь возможность отслеживать комбинации букв, с которыми движок транскрипции борется больше других.

Кто-нибудь знает какие-либо существующие алгоритмы, которые могли бы быть адаптированы к такой задаче?

Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...