Я не совсем уверен, правильно ли я вас понимаю, но да, на выходной стороне каждый вектор дополняется символом начала и конца.
Вы также правы относительно функций функций, генерируемых некоторой эвристикой.Обычно эвристика состоит в том, чтобы принимать все возможные комбинации.В вашем примере будет функция функции для каждой пары (слово, тег), что приведет к большому количеству функций.Распространенным способом формулирования таких функций является использование шаблона объекта.
При оценке модели вас не волнует нормализация, поэтому вы ищете последовательность, которая дает вам наибольший член числителя.Обычно для этого используется алгоритм Витерби, за исключением очень больших наборов меток - или в вашем примере большого количества возможных тегов - в этом случае используются приближения.
Витерби на CRF работает так же, как с HMM.Вы начинаете с начала вашей последовательности и вычисляете максимальную вероятность, заканчивающуюся под имеющимся словом, то есть максимум для каждого слова по всем предшественникам или, поскольку имеется только один предшественник, символ START.На следующем шаге вы перебираете все метки, которые возможны для второго элемента вашего прогноза, т.е. z_2.Максимум ненормированной вероятности может быть вычислен как из значений узлов предшественника, то есть из значений, которые вы вычислили на первом шаге, так и из вашей модели.В частности, вы комбинируете потенциалы предшественника, переход к рассматриваемому узлу и сам узел и находите максимум по всем предшественникам.И да, поскольку функции функций не ограничивают зависимость от исходной стороны, вы можете взять любую информацию из нее.
Когда вы прибываете в конец, вы возвращаетесь назад, чтобы определить, как был достигнут максимум.
Для дальнейшего чтения я рекомендую доклад Рахула Гупты.