Может ли ElasticSearch принимать предварительно токенизированный контент и возвращать соответствующий счет tf-idf? - PullRequest
0 голосов
/ 12 апреля 2019

Я получил какой-то китайский материал, который был точно помечен токенайзером для конкретного поля. Поэтому я предварительно обработал их, добавив пробел между токенами, и хочу поместить их в кластер es. Я полагаю, что es может вычислить idf этих документов без использования китайского токенайзера по умолчанию и вернуть соответствующий счет. Поддерживает ли это это? Я просто хочу использовать фантастическую производительность ES, а не его собственный токенизатор!

1 Ответ

0 голосов
/ 12 апреля 2019

Когда вы выбрали тип отображения, который проанализирован например. текстовый поиск сгенерирует оценку по вашему запросу. В вашем случае вы можете использовать анализатор пробелов 1004 * в отображении индекса.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...