Я работаю над оценкой набора языковых моделей, которые я разработал. Я хотел бы оценить такие модели с помощью расчетов недоумения. Однако есть одна вещь, в которой я запутался.
Учитывая эти три предложения:
s1: <s> My dog is great </s>
s2: <s> I like dogs </s>
s3: <s> Dogs are quite special </s>
Как я должен вести себя в замешательстве? Должен ли я выделить значение недоумения для конкретного предложения или отдельное значение, характеризующее набор тестов, и насколько хорошо модель способна предсказать их все?
Другими словами, это
PP(X) = [ P(s1) * P(s2) * P(s3) ] ^ -(1/N)
(где N - размер всего набора тестов)
или
PP(s1) = [ P(s1) ] ^ -(1/n1)
PP(s2) = [ P(s2) ] ^ -(1/n2)
PP(s3) = [ P(s3) ] ^ -(1/n3)
( где каждый n соответствует размеру соответствующего предложения)
Спасибо всем, кто ответит.