Я использую механизм речевой транскрипции, и он возвращает результаты с соответствующей оценкой достоверности того, что данный результат является правильным. Я хотел бы искать шаблоны, которые показывают сходство между альтернативами (подразумевая высокую вероятность того, что подстрока была правильно транскрибирована) и определяют, какие буквы / индексы отличаются среди альтернатив (подразумевая меньшую вероятность того, что они были правильно транскрибированы).
Например, "price"
- правильная транскрипция, и последовательность "ric"
будет помечена как вероятная правильная:
price,0.8999
perica,0.6221
price,0.7847
perice,0.7208
pricee,0.7843
parice,0.6866
parica,0.5879
pricea,0.7861
brice,0.6957
prize,0.7438
pric,0.8811
terica,0.4677
brica,0.5805
pericee,0.6420
priceee,0.6976
prace,0.7502
trica,0.5805
terice,0.5664
trice,0.6957
prico,0.7828
Кроме того, альтернативы должны быть взвешены по отношению к их доверительному баллу, чтобы избежать выбросов (альтернатив с низким доверительным доверием) от столь же значительного воздействия, как альтернативы с высоким доверительным доверием.
Смысл этого в том, чтобы иметь возможность отслеживать комбинации букв, с которыми движок транскрипции борется больше других.
Кто-нибудь знает какие-либо существующие алгоритмы, которые могли бы быть адаптированы к такой задаче?
Спасибо