Есть ли способ увеличить подразделы длинных документов в Lucene / SOLR? - PullRequest
0 голосов
/ 25 сентября 2019

Я управляю поисковой системой, которая специализируется на клинических документах.Большинство из них являются рефератами, возможно, 250-350 слов.Одной из проблем, которая является настоящей болью, является поиск рекомендаций.Они обычно длинные (более 1000 слов) и имеют короткие названия.Таким образом, название может быть « диагностика рака предстательной железы и последующее лечение », в котором может быть много разделов, включая один, называемый, скажем, « Скрининг на рак простаты »

Теперь, если кто-то ищет « скрининг и рак простаты », эта рекомендация не будет особо отображаться при поиске по двум причинам:

  1. скрининг 'не упоминается в заголовке(заглавные слова имеют более высокий балл)
  2. раздел «скрининг» может быть действительно уместным, но по всему руководству он может составлять только 10%, поэтому плотность терминов действительно низкая.

Эти руководящие принципы являются как HTML, так и PDF, и принадлежат множеству различных издателей, поэтому не представляется возможным (насколько я могу судить) создать конкретные правила для каждого из них.

ВПриведенный выше пример - для поиска ' скрининг и рак простаты ' - как я могу повысить документ (ы), чтобы увидеть рекомендации выше результатов?Я думаю, я мог бы оценить руководящие принципы более высоко, но похоже, что ему не хватает изящества!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...