поиск японских символов (в кодировке utf-8) с использованием Sqlite FTS - PullRequest
2 голосов
/ 06 июля 2011

Похоже, что Sqlite FTS не поддерживает поиск японских символов в соответствии с моими экспериментами, и обсуждение здесь .

#select * from tblEvent_shortdes where short_des MATCH   'BSジャパンの見どころ' 
#return nothing
select * from tblEvent_shortdes where short_des MATCH  'パンの見' 

Настройка токенизатора в FTS, кажется, способ сделать это, но я не нашел многообещающего токенизатора с открытым исходным кодом для японцев. Подойдет ли токенайзер ICU?

1 Ответ

3 голосов
/ 07 июля 2011

Вы можете взглянуть на ChaSen и MeCab .Прошло несколько лет с тех пор, как я использовал один из них - и похоже, что ни один из них не был обновлен недавно - но оба оказались достаточными для японской токенизации.

...