Question

Кто-нибудь знает какие-либо данные, относящиеся к частоте типов ошибок, которые люди делают, когда они неправильно пишут слово? Я имею в виду не сами слова, а ошибки, допущенные машинисткой. Например, я лично делаю ошибки переноса наиболее сопровождаемыми ошибками удаления (то есть, не считая буквы, которую я должен), ошибками замещения и, наконец, ошибками вставки. Однако меня не удивит, когда я узнаю, что ввод неправильной буквы (ошибка подстановки, например, xat вместо cat) встречается чаще, чем отсутствие буквы.

Моя цель состоит в том, чтобы уметь правильно угадывать слово, когда у меня есть только исходный ввод пользователя. Идея состоит в том, что если один тип ошибки встречается чаще, чем другие, то более вероятно, что исправление слова с помощью этого типа операции является правильным. Я не возражаю против использования базы данных слов с ошибками, но предпочитаю алгоритмическое решение в зависимости от корпуса - особенно если оно может быть быстрее.

stagas · Answer 1 · 18 мая 2010

Вы можете попробовать что-то вроде расчета расстояния Левенштейна между опечаткой и словами в словаре. Я не уверен, что это то, что вы хотите.

Данные о частоте операций редактирования, необходимых для исправления слова с ошибкой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Данные о частоте операций редактирования, необходимых для исправления слова с ошибкой

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы