Как упоминал @Vishnudev, предпочитайте использовать SymSpellCompound
В соответствии с тестами это быстрее, чем другие реализации исправления орфографии на порядки.Пожалуйста, обратитесь к этому графику
Если вы читаете код автозамены, он упоминает, что он основан на доступной реализации Питера Норвига здесь
Также пробовалбенчмаркинг spacy_hunspell , но не удалось увеличить время выполнения более чем на + 15-2O%
Другие улучшения:
- использовать модуль многопроцессорной обработки Python.
- если вы используете панд, подумайте об использовании Dask Framework для параллельной обработки.
Удачи в вашей задаче!