Я внедряю тест на читаемость и внедрил простой алгоритм обнаружения слогов.Обнаружение последовательностей гласных Я считаю их словами, например, слово «shoud» содержит одну последовательность гласных «ou».Прежде чем считать их, я удаляю суффиксы, такие как -les, -e, -ed (например, слово «like» содержит один слог, но две последовательности гласных, поэтому этот метод работает).
Но... Рассмотрим следующие слова / последовательности:
- Рентген (содержит два слога)
- I'm (Один слог, может быть, я могу использовать удаление всех апострофов в тексте?)
- goin '
- Я бы
- n' (например, Porn n 'Beans)
- 3-й (как лечить это?)
- 12345
Что делать со специальными символами?Удалить их всех?Это будет хорошо для большинства слов, но не с «n» и «рентген».И как обращаться с шифрами.
Это особые случаи слов, но я буду очень рад увидеть некоторый опыт или идеи в этом предмете.