метрики для ранжирования текстовых файлов - PullRequest
0 голосов
/ 20 декабря 2011

У меня есть набор текстовых файлов в конкретном домене . Мне нужно ранжировать файлы на основе некоторой метрики.

Пожалуйста, помогите мне с несколькими метриками, которые можно использовать для ранжирования моих текстовых файлов (частота, размер, частота использования и т. Д.). Затем я хотел бы использовать методы анализа текста для ранжирования файлов на основе одного из этих методов.

1 Ответ

0 голосов
/ 23 декабря 2011

Основная проблема, с которой я столкнулся, - это ранжировать документы в соответствии с их релевантностью или какими-либо другими показателями.

Теперь я пришел к выводу, что документы, ранжированные по их содержанию (релевантности), дают лучшие результаты.

Я использую векторный подход для ранжирования документов на основе поисковых слов, указанных в запросе. Я не уверен, что это лучший подход, но он дает результаты со средней точностью

...