Идентификация важного документа - PullRequest
0 голосов
/ 26 декабря 2011

У меня есть набор текстовых документов в Java.Я должен идентифицировать самый важный документ (так же, как то, что определил бы эксперт), используя компьютер.

например.У меня есть 10 книг по Java, система идентифицирует полную ссылку на Java как самый важный или самый важный документ (на основе сходства со страницей википедии о Java)найдите сходство между этим документом и набором документов под рукой (как упомянуто в предыдущем примере).И предоставьте результат, сказав, что тот, который имеет максимальное сходство, является наиболее важным документом.

Я хочу определить другие, более эффективные методы выполнения этого.Пожалуйста, предложите другие методы поиска соответствующего документа (неконтролируемым образом, если это возможно).

1 Ответ

0 голосов
/ 26 декабря 2011

Я думаю, что другой механизм будет иметь словарь слов и карту ранжирования, связанную с каждым документом.

Например, в случае полного справочника Java будет словарь ключевых слов и его ранжирование.

Java-10 J2ee-5 J2SDK-10 Java5-10 и т. Д.,

Примечание. Если ваши документы представляют собой динамические потоки и имена также динамические, я не уверен, как с этим справиться.

...