При работе с PostgreSQL вы можете разбить URL на несколько различных лексем при использовании полнотекстового поиска. Например:
SELECT to_tsvector('http://www.example.com/dir/page.html');
to_tsvector
--------------------------------------------------------------------------
'/dir/page.html':3 'www.example.com':2 'www.example.com/dir/page.html':1
(1 row)
Вы можете видеть, что PostgreSQL разбил http://www.example.com/dir/page.html
на URL минус протокол (www.example.com/dir/page.html
), хост (www.example.com
) и url_path (/dir/page.html
). Это удобно, потому что это позволит вам быстро найти www.example.com
.
С этим фоном, как SphinxSearch обрабатывает индексацию URL? Он ведет себя так же, как PostgreSQL, так как он разбивает URL на части, чтобы его можно было легко найти?