У меня есть индекс текстовых файлов Sphinx, и я хотел бы получить список ключевых слов, найденных Sphinx при индексации текстовых файлов, упорядоченных по возрастанию и убыванию по частоте их появления в наборе данных.Как мне это сделать?
Я бы хотел получить как реальный термин, так и основание, если это возможно.
Я использую API-интерфейс PHP для вызова индекса.
Ниже приведены мои настройки Sphinx.conf для этого индекса:
source srcDatasheets
{
type = mysql
sql_host = localhost
sql_user = user
sql_pass = pass
sql_db = db
sql_port = 3306
sql_query = \
SELECT id, company_id, title, brief, content_file_path \
FROM datasheets
sql_attr_uint = company_id
sql_file_field = content_file_path
sql_query_info = SELECT * FROM datasheets WHERE id=$id
}
index datasheets
{
source = srcDatasheets
path = /usr/local/sphinx/var/data/datasheetsStemmed
docinfo = extern
charset_type = sbcs
morphology = stem_en
min_stemming_len = 1
}