В настоящее время я готовлю задачу NER с Flair и ищу некоторую информацию о метриках, используемых для задачи NER.
Какие метрики наиболее часто используются и как их интерпретировать?
Я бы посоветовал проверить документацию sklearn-crfsuite , если вы хотите получить готовую реализацию.
Для интерпретации рассмотрите вашу систему NER как мультиклассовую систему классификации.