Я только что вышел из детской, что касается Lucene / Solr, поэтому, возможно, я пытаюсь использовать его совершенно неправильно, но я надеюсь, что кто-то может указать мне правильное направление.
Мои документы (менее 3000) являются краткими выписками из таксономии. Все они представляют собой отдельные предложения, некоторые из которых содержат не более 4-6 слов. Для каждого документа есть только одно поле, поэтому поиск по нескольким полям - это не тот маршрут, по которому я бы искал. То, что я хотел бы сделать, это запросить содержимое документа, связанного с работой, и получить соответствующие декларации таксономии.
В настоящее время я использую пример установки по умолчанию, который поставляется с Solr с добавленными синонимами глаголов из Wordnet, поскольку я пытаюсь идентифицировать выполненные действия (то есть утверждение таксономии «Изменение предметов одежды в спецификации»).
Базовое сопоставление слов работает, как и ожидалось, но я бы хотел сделать вещи несколько более сложными. Поскольку запросы очень длинные, я никогда не получаю высокие оценки релевантности при поиске по крошечным документам. Я уверен, что это может быть решено путем нормализации оценок каким-либо образом, поэтому я не очень обеспокоен появлением результатов, но фактическими утверждениями (документами), которые идентифицируются.
Будет ли мне лучше индексировать документы (в настоящее время длинные запросы) на лету и запрашивать каждое утверждение таксономии и компилировать / сортировать результаты, или я могу эффективно выполнять эти длинные запросы для крошечных документов каким-либо другим способом? Я предполагаю, что это может представлять свои собственные трудности.