Я собираюсь использовать код n-граммы из этой статьи .Алгоритм выдает следующие триграммные результаты:
t, th, the, he, e, q, qu, qui, uic, ick, ck, k, r, re, red, ed, d
для текста the quick red
Однако Википедия , считает, что должно быть:
the qui k_r
he_ uic _re
e_q ick red
_qu ck_
(пробел обозначен '_').
Что правильно?Есть ли какая-либо другая реализация C # там?