Наиболее часто используемые слова на сайте, используя Solr и т. Д. - PullRequest
2 голосов
/ 11 октября 2011

Я хочу создать список большинства слов, используемых на веб-сайте. Приложение должно сканировать содержимое сайта. Кто-нибудь знает, может ли это быть сделано Solr или любым другим методом?

Список может быть объектами / массивом php или файлом xml.

Ответы [ 2 ]

4 голосов
/ 11 октября 2011

вы можете проверить http://wiki.apache.org/solr/TermsComponent

Пример -

http://host:port/solr/core/terms?terms.fl=title&terms.sort=count

Даст вам все условия для названия поля, упорядоченного по количеству (по умолчанию)

terms.fl - Field you want to check the terms on 
terms.sort={count|index} - If count, sorts the terms by the term frequency (highest count first). If index, returns the terms in index order. Default is to sort by count.

Это дает индексированные термины, которые проходят через токенизатор и фильтры, поэтому, если вам нужны термины, как есть, вы можете изменить анализ поля. (возможно, используйте строку типа поля)

1 голос
/ 14 октября 2011

SOLR - это поисковая система. Он не сканирует веб-сайты. Вам необходимо создать простой сканер веб-сайтов, используя scrapy http://scrapy.org/ или какой-либо аналогичный инструмент. Разработайте схему SOLR для записи данных, сканирования веб-сайтов, отправки обновлений записей в SOLR. На ваш конкретный вопрос, вероятно, ответит выбор SCHEMA BROWSER в меню администратора SOLR через интерфейс веб-администратора. Нажмите на ДИНАМИЧЕСКИЕ ПОЛЯ, выберите интересующее вас поле и посмотрите на 10. Измените число на 50, нажмите ENTER и получите верхние 50.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...