Question

Может ли кто-нибудь помочь с выбором алгоритма.

Чтобы сравнить две строки и дать процент релевантности (если больше осталось, больше рейтинга). возможно объединить два алгоритма например: ищу "chocolate white quills" у нас есть записи

CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS]
CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX]
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT]

результат должен быть таким:

CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] | 0,1
CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] | 0,2
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT] | 0,4

как вы видите, это не сильно, сравнение должно быть использовано Я сейчас использую JaroWinkler и вот результат вот так

CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] | 0,3775
CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] | 0,3769
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT] | 0,3728

dfb · Answer 1 · 17 мая 2011

При любом ранжировании текста вам необходимо четко указывать, что вы пытаетесь измерить.В вашем примере

CHOCOLATE, WHITE QUILLS [SWISS CHALET, 900 GR BOX] | 0,1
CHOCOLATE, WHITE/DARK QUILLS [MONA LISA, 4 #/CS] | 0,2
PASTRY INGR., CHOCOLATE QUILLS WHITE [SWISS CHALET FINE FO, 16 / 120 CT] | 0,4

Почему первый элемент имеет более низкий рейтинг, чем второй?Я вроде понимаю, почему нижний имеет самый высокий рейтинг, потому что он содержит все элементы в строке без промежуточных строк.Укажите более подробную информацию, и мы постараемся помочь.

Процент релевантности (строка поиска больше "оставлена" в строке источника)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Процент релевантности (строка поиска больше "оставлена" в строке источника)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы