Question

В настоящее время я предварительно обрабатываю около 100000 предложений.Чтобы улучшить наше предсказание ML, мы, вероятно, должны выполнить некую автозамену / проверку орфографии на данных.Однако большинство реализаций в Python, которые я нашел, медленные.Существует ли эффективный и простой способ автоматического исправления всего текстового файла в python?

Я пытался работать с этим в https://github.com/phatpiglet/autocorrect/, но это занимает относительно много времени (я не реализовал это хорошо,но я думаю, кто-то уже где-то это сделал)

greyside · Answer 1 · 05 июня 2019

Как упоминал @Vishnudev, предпочитайте использовать SymSpellCompound

В соответствии с тестами это быстрее, чем другие реализации исправления орфографии на порядки.Пожалуйста, обратитесь к этому графику

Если вы читаете код автозамены, он упоминает, что он основан на доступной реализации Питера Норвига здесь

Также пробовалбенчмаркинг spacy_hunspell , но не удалось увеличить время выполнения более чем на + 15-2O%

Другие улучшения:

использовать модуль многопроцессорной обработки Python.
если вы используете панд, подумайте об использовании Dask Framework для параллельной обработки.

Удачи в вашей задаче!

Эффективное автозамена для всех текстовых файлов с Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Эффективное автозамена для всех текстовых файлов с Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы