Предполагая, что вы вычисляете баллы для каждого n-грамма и ранжируете ngram по этим баллам, вы можете настроить баллы этих n-грамм, применяя различный скалярный вес для каждого значения n
, например, v = <0.1, 0.2, 0.5, 0.9, 1.0>
, где v[0]
будет применяться к n-грамму, где n == 1
. Такой вектор можно определить по большому текстовому корпусу путем измерения относительных частот набора представительных n-грамм решения (например, если вы ищете предложения, то рассчитайте n
для каждого предложения, подсчитайте частоты каждого значения n
и создайте вероятностное распределение из этих данных.