В статьях о CRF (например, , или , ) все авторы упоминают алгоритм прямого-обратного хода, но все же реализации в GitHub (или базовую реализацию в PyTorch ).учебник ), кажется, использует только прямой алгоритм для расчета отрицательной логарифмической вероятности, которая будет оптимизирована с SGD.
Если я хочу обучить NER функциям BiLSTM и единственному типу запросов, которые я сделаюэто как «дано предложение, найти названные сущности», мне нужен алгоритм вперед-назад?Или, в более общем плане, в чем разница между этими двумя алгоритмами и когда они используются?