Какова эффективная библиотека для предложения ключевых слов для контента? - PullRequest
8 голосов
/ 11 сентября 2011

В настоящее время проектирую CMS для использования на моем сайте.Мне интересно, были ли какие-либо бесплатные библиотеки для создания тегов на основе содержимого.

Пример

Мне нравятся деревья.Деревья - это растения с листьями.Листья на дереве могут быть разноцветными.

Будет производить теги деревья и листья .

Библиотека должна быть PHP илиJS.

РЕДАКТИРОВАТЬ 1:

Я нашел простую библиотеку для половины моей задачи - http://www.cafewebmaster.com/get-top-100-words-keywords-text-php

Я отредактировал, какие спецификации библиотекидолжно быть (благодаря руководству @NullUserException) -

  • Подсчитать все слова (игнорируя регистр и наклоны), выбросить стоп-слова и выбрать слова с самой высокой частотой

  • Редактировать текст, чтобы слова, более специфичные для жанра (могут иметь более низкую частоту), имели более высокое значение.Например, в примере - 'multi-color' должно стать более высоким значением, поскольку оно более специфично для объекта.Однако он должен включать префикс, указывающий, что он относится к предмету (он станет разноцветным).

РЕДАКТИРОВАТЬ 2:

Алгоритм должен удалять слова длиной менее 3 символов , если они не прописные или не отформатированы

1 Ответ

1 голос
/ 11 сентября 2011

Тэги в вашей CMS уже определены? Если да, вы можете индексировать свой текст в памяти и выполнять поиск по всем известным тегам. Выберите теги с наибольшим количеством очков и представьте их пользователю.

Индексирование и поиск можно выполнить с помощью http://lucene.apache.org/solr/

Редактировать : обратите внимание, что я предлагаю, чтобы ваши теги / ключевые слова определялись и управлялись из панели администрирования (как, например, в WordPress). В противном случае вы получите тысячи ключевых слов, сгенерированных из ваших статей, которые никогда не помогут конечному пользователю.

...