Я хотел получить косинусное сходство между длинным запросом и документом в коллекции. Я использую Lucence для индексации коллекции и отправки запросов для получения документов.
Однако я получаю следующую ошибку для некоторых запросов.
"Caused by: org.apache.lucene.search.BooleanQuery$TooManyClauses: maxClauseCount is set to 1024"
Я повторил некоторые термины в запросе, чтобы повысить их вес. Но кажется, что lucene просто выполняет простое логическое извлечение вместо вычисления косинусного сходства, используя tf-idf для документа и запроса.
Кто-нибудь может это подтвердить?