Проверка текста на английском и / или финском языках - PullRequest
0 голосов
/ 23 апреля 2009

Существует ли простой в использовании модуль Python, который будет выполнять проверку текста на английском или финском языке?

Было бы хорошо, если бы я мог просто проверить, существуют ли слова в определенном пользователем словаре и, возможно, проверить, что грамматика несколько в порядке.

Я планирую внедрить необычную проверку содержимого каталога, которое я делал недавно. Это включает в себя некоторые простые вещи, такие как проверка того, что скрипты конфигурации не будут аварийно завершаться, и все это хорошо работает. В противном случае все довольно просто.

Для валидатора я должен иметь возможность вводить целые файлы или строки текста в юникоде.

1 Ответ

2 голосов
/ 23 апреля 2009

Я не уверен, что вы пытаетесь сделать, но если вы ищете что-то, что может сказать «это действительно английский» или «это действительно финский», то вы смотрите проблемы, которые, скорее всего, неразрешимы.

Если нет, то используйте словарь и / или буквенные частоты и байесовский анализ, чтобы определить, является ли данный текст английским или финским. Если вы пытаетесь автоматически определить язык, это, вероятно, лучший маршрут, хотя у вас возникнут проблемы со смешанным языком.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...