Как Sphinx обрабатывает URL - PullRequest
       3

Как Sphinx обрабатывает URL

0 голосов
/ 11 октября 2011

При работе с PostgreSQL вы можете разбить URL на несколько различных лексем при использовании полнотекстового поиска. Например:

SELECT to_tsvector('http://www.example.com/dir/page.html');
                               to_tsvector                                
--------------------------------------------------------------------------
 '/dir/page.html':3 'www.example.com':2 'www.example.com/dir/page.html':1
(1 row)

Вы можете видеть, что PostgreSQL разбил http://www.example.com/dir/page.html на URL минус протокол (www.example.com/dir/page.html), хост (www.example.com) и url_path (/dir/page.html). Это удобно, потому что это позволит вам быстро найти www.example.com.

С этим фоном, как SphinxSearch обрабатывает индексацию URL? Он ведет себя так же, как PostgreSQL, так как он разбивает URL на части, чтобы его можно было легко найти?

1 Ответ

0 голосов
/ 15 октября 2011

буквально разбивает исходный текст, используя любые символы, не перечисленные в charset_table

так нормально. и / просто считаются разделителями, поэтому URL будет просто доступен для поиска по группам букв - полезно в сочетании с оператором фразы

...