Кто-нибудь хочет объяснить «Tokenized Field» в терминах баз данных? - PullRequest
3 голосов
/ 22 января 2010

Я читаю о SOLR и индексирую базу данных MySQL в SOLR.

Что они подразумевают под "токенизировать" и "не токенизировать"?

А что это значит, когда поля "нормализованы"?

Я знаю, как и что значит нормализовать базу данных, кроме поля? Как нормализовать простое поле?

Спасибо

Ответы [ 2 ]

5 голосов
/ 22 января 2010

Что они подразумевают под "токенизацией" и "ООН-токенизировать"?

Токенизация поля обеспечивает полнотекстовый поиск, то есть поиск любого слова, которое встречается в любом месте поля. Поле Untokenized будет найдено только тогда, когда у вас будет полное и точное совпадение, например, если в поле указано «голубая луна», оно будет найдено только при поиске «голубой луны», а не только при поиске только «голубой».

А что это значит, когда поля "Нормализуется"?

Скорее всего, это относится к нормализации Unicode - Unicode имеет отдельные кодовые точки для диакритических знаков, например, U + 0060 - это `(серьезный акцент), поэтому акцентированная буква è может быть одним символом Unicode (U + 00E8) или состоять из двух (U + 0060 и U + 0065). Но, конечно, вы хотите, чтобы оба были найдены при поиске è.

3 голосов
/ 22 января 2010

токенизатор разбивает поток символов на слова, которые являются атомными единицами поиска. Строки могут быть разделены на основе пробелов, границ слов и т. д. Эти слова часто пропускаются через фильтры на втором этапе, которые применяют дополнительные преобразования к словам (например, коды soundex, определение портера и т. д.). Результатом является нормализованное представление слов, которые можно эффективно сравнить.

например: "Кошки едят сыр!" можно нормировать на слова: 1) кошка 2) есть 3) сыр

"the" было удалено (стоп-слово), cat теперь в единственном числе (stemming), пунктуация исчезла, а слова в нижнем регистре.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...