Определение мер оценки для списков без рейтинга (набор) - PullRequest
0 голосов
/ 30 августа 2018

У меня есть датафрейм следующим образом: enter image description here

  1. Столбец 0 (0,1,2,3 ...) относится к document_ids
  2. 40041,37962,37985 ... являются идентификаторами, представляющими объекты, связанные с документами. Например, document_id 2 имеет связанный (истинный) объект 37985 и прогнозируемые объекты 37985,37983.
  3. Правда - реальные объекты (золотой стандарт)
  4. Predicted - объекты, предсказанные по моему алгоритму
  5. Перекрытия - объекты существуют как в списках правды, так и в прогнозе
  6. Не обнаружено - объекты существуют в списке Истина, но не обнаружены алгоритмом.

Мой вопрос:

  • Какие меры оценки я могу использовать, учитывая приведенные ниже наборы данных? Точность не будет возможна, поскольку у меня пока нет ложных срабатываний. Как насчет точности или сходства с Жаккартом? Scikit перечислил несколько оценочных мер здесь . Я ищу меры для оценки списков без рейтинга ..
...