Эффективное автозамена для всех текстовых файлов с Python? - PullRequest
0 голосов
/ 03 июня 2019

В настоящее время я предварительно обрабатываю около 100000 предложений.Чтобы улучшить наше предсказание ML, мы, вероятно, должны выполнить некую автозамену / проверку орфографии на данных.Однако большинство реализаций в Python, которые я нашел, медленные.Существует ли эффективный и простой способ автоматического исправления всего текстового файла в python?

Я пытался работать с этим в https://github.com/phatpiglet/autocorrect/, но это занимает относительно много времени (я не реализовал это хорошо,но я думаю, кто-то уже где-то это сделал)

1 Ответ

1 голос
/ 05 июня 2019

Как упоминал @Vishnudev, предпочитайте использовать SymSpellCompound

В соответствии с тестами это быстрее, чем другие реализации исправления орфографии на порядки.Пожалуйста, обратитесь к этому графику

Если вы читаете код автозамены, он упоминает, что он основан на доступной реализации Питера Норвига здесь

Также пробовалбенчмаркинг spacy_hunspell , но не удалось увеличить время выполнения более чем на + 15-2O%

Другие улучшения:

  • использовать модуль многопроцессорной обработки Python.
  • если вы используете панд, подумайте об использовании Dask Framework для параллельной обработки.

Удачи в вашей задаче!

...