Алгоритм C # для N-граммы - PullRequest
       76

Алгоритм C # для N-граммы

0 голосов
/ 30 сентября 2010

Я собираюсь использовать код n-граммы из этой статьи .Алгоритм выдает следующие триграммные результаты:

t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d

для текста the quick red

Однако Википедия , считает, что должно быть:

the  qui  k_r
he_  uic  _re
e_q  ick  red
_qu  ck_

(пробел обозначен '_').

Что правильно?Есть ли какая-либо другая реализация C # там?

Ответы [ 2 ]

2 голосов
/ 14 июля 2015

Первое правильно. Я использую символьную N-грамм в своей диссертации. Вы должны двигаться вперед и передавать один символ за каждый шаг. В этом состоянии можно найти похожие слова.

2 голосов
/ 30 сентября 2010

Второй пример верен.

пс. Почему вы генерируете триграммы для всего текста, а не только для слов? Каков ваш вариант использования?

...