Question

Я реализую вариант проверки орфографии. После прохождения различных маршрутов (для повышения эффективности времени) я планирую опробовать компонент, который будет включать использование n-граммовой модели. По сути, я хочу сократить список вероятных кандидатов для дальнейшей обработки. Ребята, знаете ли вы, что использование одного значения n (скажем, 2) будет лучше, чем другого (скажем, 3)?

Bjerva · Answer 1 · 30 октября 2012

Когда вы говорите n-граммы, я предполагаю, что вы говорите о буквах в слове, а не о словах в предложении (что, вероятно, является наиболее распространенным использованием). В этом случае я бы согласился с Марком Рушаковым в том, что вы можете сократить список кандидатов до слов, содержащих на 3-5 символов больше или меньше, чем слово, которым вы управляете.

Другой вариант - реализовать алгоритм Левенштейна , чтобы найти расстояние редактирования между двумя словами. Это может быть сделано довольно эффективно: во-первых, только путем проверки вашего сокращенного списка. Во-вторых, через преждевременное завершение вычисления расстояния слова, когда расстояние редактирования превышает некоторый предел (например, 3-5).

В качестве примечания, я не согласен с Марком в том, что вы должны игнорировать короткие слова, так как они не так часто пишутся с ошибками. Большая часть слов с ошибками будет короткими (например, «и» - «над», «-», «ты» - «йо») просто потому, что они встречаются гораздо чаще.

Надеюсь, это поможет!

Stefanus · Answer 2 · 15 мая 2016

Если у вас достаточно текста для обучения, 3 - хорошее начало. С другой стороны, такая модель будет довольно большой и раздувает вашу проверку орфографии.

Вы также можете сравнить различные настройки на основе недоумение .

Mark Rushakoff · Answer 3 · 12 сентября 2009

По данным этого сайта , средняя длина слова в английском языке составляет 5,10 буквы. Я бы предположил, что люди с большей вероятностью неправильно пишут более длинные слова, чем более короткие, поэтому я склоняюсь к тому, чтобы перебирать на 3-5 букв вперед, если это возможно, изнутри.

Какое эмпирически найдено лучшее значение для n в n-граммовой модели?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Какое эмпирически найдено лучшее значение для n в n-граммовой модели?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы