Процент релевантности (строка поиска больше "оставлена" в строке источника) - PullRequest
0 голосов
/ 17 мая 2011

Может ли кто-нибудь помочь с выбором алгоритма.

Чтобы сравнить две строки и дать процент релевантности (если больше осталось, больше рейтинга). возможно объединить два алгоритма например: ищу "chocolate white quills" у нас есть записи

CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS]
CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX]
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT]

результат должен быть таким:

CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] | 0,1
CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] | 0,2
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT] | 0,4

как вы видите, это не сильно, сравнение должно быть использовано Я сейчас использую JaroWinkler и вот результат вот так

CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] | 0,3775
CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] | 0,3769
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT] | 0,3728

1 Ответ

0 голосов
/ 17 мая 2011

При любом ранжировании текста вам необходимо четко указывать, что вы пытаетесь измерить.В вашем примере

CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] | 0,1
CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] | 0,2
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT] | 0,4

Почему первый элемент имеет более низкий рейтинг, чем второй?Я вроде понимаю, почему нижний имеет самый высокий рейтинг, потому что он содержит все элементы в строке без промежуточных строк.Укажите более подробную информацию, и мы постараемся помочь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...