Проверка правописания Python - PullRequest
       51

Проверка правописания Python

0 голосов
/ 23 октября 2018

Мне нужна проверка орфографии в python.Я посмотрел предыдущие ответы, и все они кажутся устаревшими или неприменимыми:

Проверка орфографии Python с использованием дерева Этот вопрос больше о структуре данных.

Проверка правописания Python Это корректор орфографии с двумя строками.

http://norvig.com/spell-correct.html Часто упоминается и довольно интересно, но также корректор орфографии, а точность недостаточно хорошо, хотя я, вероятно, буду использовать это в сочетании с проверкой.

Проверка орфографии для Python Использует pyenchant, который больше не поддерживается.

Python: проверьте, правильно ли написано слово Также предлагает Pyenchant, который не поддерживается.

Некоторые детали того, что мне нужно:

  • Функция, которая принимает строку (слово) и возвращает логическое значение, независимо от того, является ли слово правильным английским или нет.Модульный тест хотел бы, чтобы True на входе «car» и False на входе «ijjk».
  • Точность должна быть выше 90%, но не выше этой.Я просто использую это, чтобы исключить слова во время предварительной обработки для классификации документов.Большинство ошибок в любом случае будут восприниматься как слова, которые появляются слишком редко (хотя и не все).Исправление орфографии не будет работать во всех случаях, потому что многие ошибки - это проблемы распознавания, которые слишком далеки, чтобы их исправить.
  • Если это может иметь дело с юридическими терминами, это было бы большим плюсом.В противном случае мне может понадобиться вручную добавить некоторые термины в словарь.

Какой здесь лучший подход?Есть ли поддерживаемые библиотеки?Нужно ли загружать словарь и проверять его?

1 Ответ

0 голосов
/ 23 октября 2018

Если вам нужна простая проверка по каждому слову, вам просто нужен набор слов (желательно, соответствующий вашей терминологии), прочитайте его в python set и выполните проверку членства для каждого отдельного слова по одному.

Однажды / если у вас возникнут проблемы с этой наивной реализацией, вы перейдете к конкретным проблемам.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...