Длинные запросы на очень короткие документы - PullRequest
0 голосов
/ 08 февраля 2012

Я только что вышел из детской, что касается Lucene / Solr, поэтому, возможно, я пытаюсь использовать его совершенно неправильно, но я надеюсь, что кто-то может указать мне правильное направление.

Мои документы (менее 3000) являются краткими выписками из таксономии. Все они представляют собой отдельные предложения, некоторые из которых содержат не более 4-6 слов. Для каждого документа есть только одно поле, поэтому поиск по нескольким полям - это не тот маршрут, по которому я бы искал. То, что я хотел бы сделать, это запросить содержимое документа, связанного с работой, и получить соответствующие декларации таксономии.

В настоящее время я использую пример установки по умолчанию, который поставляется с Solr с добавленными синонимами глаголов из Wordnet, поскольку я пытаюсь идентифицировать выполненные действия (то есть утверждение таксономии «Изменение предметов одежды в спецификации»).

Базовое сопоставление слов работает, как и ожидалось, но я бы хотел сделать вещи несколько более сложными. Поскольку запросы очень длинные, я никогда не получаю высокие оценки релевантности при поиске по крошечным документам. Я уверен, что это может быть решено путем нормализации оценок каким-либо образом, поэтому я не очень обеспокоен появлением результатов, но фактическими утверждениями (документами), которые идентифицируются.

Будет ли мне лучше индексировать документы (в настоящее время длинные запросы) на лету и запрашивать каждое утверждение таксономии и компилировать / сортировать результаты, или я могу эффективно выполнять эти длинные запросы для крошечных документов каким-либо другим способом? Я предполагаю, что это может представлять свои собственные трудности.

1 Ответ

0 голосов
/ 23 апреля 2012

Я не вижу конца тому, что вы пытаетесь сделать здесь, я имею в виду, что ваш индекс коротких документов определенно пострадает от огромного количества информации, а длинный запрос сделает каждый результат почти ровным, даже расширив документ надобавление каждого термина с синонимами Wordnet будет вводить в заблуждение и вводить в заблуждение, я думаю, мой совет - проверить другие возможные формы запроса.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...