Есть ли метод для расчета чего-то вроде общего «показателя сходства» строки?Таким образом, я не сравниваю две строки вместе, а получаю некоторые числа / оценки (хэш) для каждой строки, которые позже могут сказать мне, что две строки являются или не похожи.Две одинаковые строки должны иметь одинаковые (близкие) оценки / хэши.
Давайте рассмотрим эти строки и оценки в качестве примера:
Hello world 1000
Hello world!1010
Привет земля 1125
Foo bar 3250
FooBarbar 3750
Foo Bar!3300
Foo world!2350
Вы можете видеть этот Привет мир!и Hello world похожи, и их оценки близки друг к другу.
Таким образом, поиск наиболее похожих строк для заданной строки будет выполняться путем вычитания заданной оценки строк из других оценок и последующей сортировки их абсолютного значения.
Моя конечная цель: потоковые сообщения журнала (только чистые сообщения), и я хочу найти шаблон этих сообщений (какой-то тип регулярных выражений). Но это начинается только тогда, когда я могу собрать подобныестроки.Я снова сосредотачиваюсь на том, что я должен получить некоторое число / баллы (хэш) для каждой строки, и ТО, ЧТО МОЖЕТ ПОЗЖЕ сказать, что две строки являются или не похожи