автоматическая пометка документов - PullRequest
1 голос
/ 09 августа 2009

Я начал работать над проектом, в котором я должен помечать документы ключевыми словами, и это очень сложно и отнимает много времени, если вы делаете это вручную (особенно если у вас есть тысячи документов). Поэтому я планирую автоматизировать процесс (зная, что результат не будет идеальным, но, по крайней мере, он даст вам несколько рекомендуемых тегов). В последней версии Firefox они реализовали такую ​​систему (когда вы добавляете закладку на страницу, она предлагает вам несколько тегов).

срок извлечения Yahoo сервис также отличный пример

Так что, если какое-либо тело может помочь мне обойти эту проблему, я был бы очень признателен за помощь. Или, если кто-то знает о системе тегов Firefox, небольшая помощь будет очень полезна.

1 Ответ

1 голос
/ 09 августа 2009

Будет ли работать статистический алгоритм? Может быть, что-то байесовское? Я знаю, что они используются для фильтрации спама, возможно, вы можете адаптировать байесовский фильтр в соответствии с вашими потребностями.

По крайней мере, вы могли бы предложить слова, которые часто используются, но не являются общими словами в английском (он, она, я, и, потом, или и т. Д.)

...