Как реализовать полнотекстовый поиск на китайском языке в PostgreSQL? - PullRequest
11 голосов
/ 22 октября 2010

Этот вопрос задавался ранее:

Полнотекстовый поиск Postgresql в postgresql - на японском, китайском, арабском

, но для китайского нет ответов, посколькуЯ могу видеть.Я взглянул на вики OpenOffice, и в нем нет словаря для китайского языка.

Edit : поскольку мы уже успешно используем внутренний движок PG FTS для документов на английском языке, мыне хочу переходить на внешний движок индексации.По сути, я ищу китайскую конфигурацию FTS, включая парсер и словари для упрощенного китайского (мандарин).

Ответы [ 3 ]

4 голосов
/ 21 мая 2015

Я знаю, что это старый вопрос, но есть расширение Postgres для китайского: https://github.com/amutu/zhparser/

3 голосов
/ 18 января 2013

Я только что внедрил решение FTS на китайском языке в PostgreSQL. Я сделал это путем создания токенов NGRAM из китайского ввода и создания необходимых tsvector с помощью встроенной функции (в моем случае я использовал plpythonu). Он работает очень хорошо (в высшей степени предпочтительнее перехода на SQL Server !!!).

2 голосов
/ 22 октября 2010

Индексируйте свои данные с помощью Solr, это поисковый сервер с открытым исходным кодом, построенный на основе Lucene.

Вы можете найти больше информации о Solr здесь:

http://lucene.apache.org/solr/

Хорошая книга о том, как (с немедленной загрузкой PDF) здесь:

https://www.packtpub.com/solr-1-4-enterprise-search-server/book

И обязательно используйте китайский токенизатор, такой как solr.ChineseTokenizerFactory, потому что китайский язык не разделен пробелами.

...