Как мне взвесить генератор предложений N-грамм, чтобы он не поддерживал короткие предложения? - PullRequest
1 голос
/ 21 декабря 2011

Я играю с написанием сценария сравнения / генерации предложений n-граммы.Модель сильно поддерживает короткие предложения, какие-либо быстрые предложения о том, как я мог бы придать ей больший вес для более длинных предложений?

1 Ответ

2 голосов
/ 27 февраля 2012

Предполагая, что вы вычисляете баллы для каждого n-грамма и ранжируете ngram по этим баллам, вы можете настроить баллы этих n-грамм, применяя различный скалярный вес для каждого значения n, например, v = <0.1, 0.2, 0.5, 0.9, 1.0>, где v[0] будет применяться к n-грамму, где n == 1. Такой вектор можно определить по большому текстовому корпусу путем измерения относительных частот набора представительных n-грамм решения (например, если вы ищете предложения, то рассчитайте n для каждого предложения, подсчитайте частоты каждого значения n и создайте вероятностное распределение из этих данных.

...