Поиск и ранжирование совпадений нескольких фраз в индексированных документах Lucene - PullRequest
1 голос
/ 17 января 2012

Учитывая серию документов, содержащих текст, я хотел бы найти фразы, вернуть все совпадения и оценить их.Я знаю, как получить lucene / solr, чтобы указать, какие документы соответствуют, и сделать выделение внутри документа, но как получить рейтинг, который включает в себя несколько совпадений из одного и того же документа?

First document.  It has a single line of text.
Second document.  This text line is quite short.
This is another line containing more text and is a bit longer.

ЕслиЯ искал "текстовую строку", а затем хотел бы найти три совпадения, ранжированные следующим образом:

2nd document -> ...This "text line" is quite short.
1st document -> ...It has a single "line of text".
2nd document -> ...another "line containing more text" and is...

Возможно ли это?Как?

1 Ответ

0 голосов
/ 17 января 2012

Если вы хотите, чтобы в каждой строке было по одному совпадению, сделайте каждую строку отдельным документом.Не следует путать термин «документ» с тем, является ли текст на самом деле одним файлом.

Если вы хотите сохранить ссылку на файл, просто индексируйте идентификатор также в другом (сохраненном) поле.

{ id: "myfile.txt",
  text: "first line" }

{ id: "myfile.txt",
  text: "second line" }
...