Какое эмпирически найдено лучшее значение для n в n-граммовой модели? - PullRequest
1 голос
/ 11 сентября 2009

Я реализую вариант проверки орфографии. После прохождения различных маршрутов (для повышения эффективности времени) я планирую опробовать компонент, который будет включать использование n-граммовой модели. По сути, я хочу сократить список вероятных кандидатов для дальнейшей обработки. Ребята, знаете ли вы, что использование одного значения n (скажем, 2) будет лучше, чем другого (скажем, 3)?

Ответы [ 3 ]

0 голосов
/ 30 октября 2012

Когда вы говорите n-граммы, я предполагаю, что вы говорите о буквах в слове, а не о словах в предложении (что, вероятно, является наиболее распространенным использованием). В этом случае я бы согласился с Марком Рушаковым в том, что вы можете сократить список кандидатов до слов, содержащих на 3-5 символов больше или меньше, чем слово, которым вы управляете.

Другой вариант - реализовать алгоритм Левенштейна , чтобы найти расстояние редактирования между двумя словами. Это может быть сделано довольно эффективно: во-первых, только путем проверки вашего сокращенного списка. Во-вторых, через преждевременное завершение вычисления расстояния слова, когда расстояние редактирования превышает некоторый предел (например, 3-5).

В качестве примечания, я не согласен с Марком в том, что вы должны игнорировать короткие слова, так как они не так часто пишутся с ошибками. Большая часть слов с ошибками будет короткими (например, «и» - «над», «-», «ты» - «йо») просто потому, что они встречаются гораздо чаще.

Надеюсь, это поможет!

0 голосов
/ 15 мая 2016

Если у вас достаточно текста для обучения, 3 - хорошее начало. С другой стороны, такая модель будет довольно большой и раздувает вашу проверку орфографии.

Вы также можете сравнить различные настройки на основе недоумение .

0 голосов
/ 12 сентября 2009

По данным этого сайта , средняя длина слова в английском языке составляет 5,10 буквы. Я бы предположил, что люди с большей вероятностью неправильно пишут более длинные слова, чем более короткие, поэтому я склоняюсь к тому, чтобы перебирать на 3-5 букв вперед, если это возможно, изнутри.

...