У меня есть индекс с полем «Принадлежность», некоторые примеры значений:
- "Медицинский факультет Стэнфордского университета, Пало-Альто, Калифорния, США",
- "Институт нейробиологии, медицинский факультет, Стэнфордский университет, Пало-Альто, Калифорния",
- "Медицинский факультет Гарвардского университета, Бостон М.А.",
- "Brigham & Women's, Медицинский факультет Гарвардского университета, Бостон, Массачусетс"
- "Гарвардский университет, Кембридж, Массачусетс"
и т. Д. (Суть в том, что присоединения написаны несколькими способами без видимой последовательности)
Я запрашиваю индекс в поле присоединения, используя, скажем, «Медицинский факультет, Стэнфордский университет, Пало-Альто, Калифорния» (с QueryParser), чтобы найти все документы, связанные со Стэнфордом, я получаю много ложных ответов, предположительно из-за наличие Медицинского факультета и т. д. и т. д. (примечание: я не могу использовать Фразовый запрос из-за различий в способах построения аффилиации)
Я пробовал следующее:
Используйте SpanNearQuery, разделив поисковую фразу пробелом (здесь я не получаю результатов!)
Попытка повышения (используя ^) путем разделения запятой и усиления последних частей, таких как «Пало-Альто-СА», с гораздо более высоким усилением, чем начальные фразы. Здесь я все еще получаю много ложных + весов.
Любые предложения о том, как подойти к этому? Если SpanNearQuery путь, Есть идеи, почему я получаю 0 результатов?