mysql: майнинг для ключевых слов и фраз - PullRequest
0 голосов
/ 10 ноября 2011

Я хотел бы получить популярные слова и фразы (до 3 слов) из таблицы базы данных моей продукции.

Я пытался использовать сервис sphinxsearch для того, что было здорово, кроме ..

  1. В результате получаются простые текстовые слова - без словенских специальных символов (čžš), которые есть в таблице продуктов

  2. результаты только отдельные слова, без фраз

sphinx строит это из индекса ... все вместе (включая построение индекса) тратит около 2 минут на 100 000 продуктов ...

это впечатляет .. так как мне нужно это только время от времени (1 / месяц) ...

но, как уже было сказано, непригодный для моего случая ....

Какие есть другие альтернативы?

Мне нужно около 5000 слов и фраз

изменить базу данных моих продуктов

source products_src
{
    type            = mysql

    sql_host        = localhost
    sql_user        = root
    sql_pass        = xxxxxxxxxx
    sql_db          = xxxxxxxxx

    sql_query_pre = SET CHARACTER_SET_RESULTS=utf8
    sql_query_pre = SET NAMES utf8

    sql_query       = \
        SELECT id, title, summary, keywords, text, category_id, company_id, created \
        FROM products WHERE status='A'

    sql_attr_uint = category_id
    sql_attr_uint = company_id
    sql_attr_timestamp = created
    sql_attr_string = title
    sql_attr_string = text

    sql_query_info      = SELECT id, category_id, title FROM products WHERE id=$id
}
...