Я использую систему NER, которая выдает на выходе текстовый файл, содержащий список именованных объектов, которые являются экземплярами концепции Speaker. Я ищу инструмент, который может вычислить точность системы, отзыв и F1, взяв в качестве входных данных этот список и золотой стандарт, где экземпляры правильно помечены тегами <Speaker>
.
У меня есть два txt-файла: Instances.txt и GoldStandard.txt. Мне нужно сравнить извлеченные экземпляры с золотым стандартом, чтобы рассчитать эти показатели. Например, согласно второму файлу, первые три предложения в первом файле являются положительными, а последнее - ложными.
instances.txt содержит:
is sponsoring a lecture by <speaker> Antal Bejczy from
announces a talk by <speaker> Julia Hirschberg
His name is <speaker> Toshiaki Tsuboi He will
to produce a schedule by <speaker> 50% for problems
GoldStandard.txt содержит:
METC is sponsoring a lecture by <speaker> Antal Bejczy from Stanford university
METC announces a talk by <speaker> Julia Hirschberg
The speaker is from USA His name is <speaker> Toshiaki Tsuboi He will
propose a solution to these problems
It led to produce a schedule by 50% for problems