У меня есть датафрейм следующим образом:
![enter image description here](https://i.stack.imgur.com/eSHSq.png)
- Столбец 0 (0,1,2,3 ...) относится к document_ids
- 40041,37962,37985 ... являются идентификаторами, представляющими объекты, связанные с документами. Например, document_id 2 имеет связанный (истинный) объект 37985 и прогнозируемые объекты 37985,37983.
- Правда - реальные объекты (золотой стандарт)
- Predicted - объекты, предсказанные по моему алгоритму
- Перекрытия - объекты существуют как в списках правды, так и в прогнозе
- Не обнаружено - объекты существуют в списке Истина, но не обнаружены алгоритмом.
Мой вопрос:
- Какие меры оценки я могу использовать, учитывая приведенные ниже наборы данных? Точность не будет возможна, поскольку у меня пока нет ложных срабатываний. Как насчет точности или сходства с Жаккартом? Scikit перечислил несколько оценочных мер здесь . Я ищу меры для оценки списков без рейтинга ..