Question

если у меня есть две строки в mysql:

@a="Welcome to Stack Overflow"
@b=" Hello to stack overflow";

есть ли способ получить процент сходства между этими двумя строками, используя MYSQL?здесь, например, 3 слова похожи, и поэтому сходство должно быть примерно таким:
count (похожие слова между @a и @b) / (count (@a) + count (@b) - count (пересечение))
и, следовательно, результат равен 3 / (4 + 4 - 3) = 0,6
любая идея высоко ценится!

Alaa · Answer 1 · 18 июня 2011

Вы можете использовать эту функцию (полицейский ^ H ^ H ^ Адаптирован с http://www.artfulsoftware.com/infotree/queries.php#552):

CREATE FUNCTION `levenshtein`( s1 text, s2 text) RETURNS int(11)
    DETERMINISTIC
BEGIN 
    DECLARE s1_len, s2_len, i, j, c, c_temp, cost INT; 
    DECLARE s1_char CHAR; 
    DECLARE cv0, cv1 text; 
    SET s1_len = CHAR_LENGTH(s1), s2_len = CHAR_LENGTH(s2), cv1 = 0x00, j = 1, i = 1, c = 0; 
    IF s1 = s2 THEN 
      RETURN 0; 
    ELSEIF s1_len = 0 THEN 
      RETURN s2_len; 
    ELSEIF s2_len = 0 THEN 
      RETURN s1_len; 
    ELSE 
      WHILE j <= s2_len DO 
        SET cv1 = CONCAT(cv1, UNHEX(HEX(j))), j = j + 1; 
      END WHILE; 
      WHILE i <= s1_len DO 
        SET s1_char = SUBSTRING(s1, i, 1), c = i, cv0 = UNHEX(HEX(i)), j = 1; 
        WHILE j <= s2_len DO 
          SET c = c + 1; 
          IF s1_char = SUBSTRING(s2, j, 1) THEN  
            SET cost = 0; ELSE SET cost = 1; 
          END IF; 
          SET c_temp = CONV(HEX(SUBSTRING(cv1, j, 1)), 16, 10) + cost; 
          IF c > c_temp THEN SET c = c_temp; END IF; 
            SET c_temp = CONV(HEX(SUBSTRING(cv1, j+1, 1)), 16, 10) + 1; 
            IF c > c_temp THEN  
              SET c = c_temp;  
            END IF; 
            SET cv0 = CONCAT(cv0, UNHEX(HEX(c))), j = j + 1; 
        END WHILE; 
        SET cv1 = cv0, i = i + 1; 
      END WHILE; 
    END IF; 
    RETURN c; 
  END

и для получения значения XX% используйте эту функцию

CREATE FUNCTION `levenshtein_ratio`( s1 text, s2 text ) RETURNS int(11)
    DETERMINISTIC
BEGIN 
    DECLARE s1_len, s2_len, max_len INT; 
    SET s1_len = LENGTH(s1), s2_len = LENGTH(s2); 
    IF s1_len > s2_len THEN  
      SET max_len = s1_len;  
    ELSE  
      SET max_len = s2_len;  
    END IF; 
    RETURN ROUND((1 - LEVENSHTEIN(s1, s2) / max_len) * 100); 
  END

Neville Kuyt · Answer 2 · 16 марта 2011

Я не думаю, что есть хороший, одношаговый способ сделать запрос - материал на естественном языке в основном предназначен для "Google-подобного" поиска, который звучит иначе, чем вы пытаетесь сделать.

В зависимости от того, что вы на самом деле пытаетесь сделать - я полагаю, вы упустили много деталей - я бы:

создал таблицу, на которую вы разбили каждыйстрока в слова, все в нижнем регистре, убирая пробелы и знаки препинания - в вашем примере вы получите:

string_id               word

1                       hello
1                       from
1                       stack
1                       overflow
2                       welcome
2                       from
2                       stack
2                       overflow

Затем вы можете выполнить запросы к этой таблице -например,

select count(*)
from  stringWords
where string_id = 2
and word in 
  (select word 
  from stringWords
  where string_id = 1);

дает вам пересечение.

Затем вы можете создать функцию или аналог для вычисления сходства по вашей формуле.

Не очень чистый, но он должен работать довольно быстро, он в основном реляционный, и он должен быть в значительной степени независимым от языка.Чтобы справиться с возможными опечатками, вы можете вычислить soundex - это позволит вам сравнить «stack» с «stak» и увидеть, насколько они действительно похожи, хотя это не работает надежно для языков, отличных от английского.

SubniC · Answer 3 · 16 марта 2011

Вы можете попробовать алгоритм SOUNDEX, посмотрите здесь:)

SOUNDEX MySQL

EDIT 1:

Может быть, полезна эта ссылка на обработку естественного языка с MySQL

Полнотекстовый поиск на естественном языке

Как найти похожие результаты и отсортировать по сходству?

HTH!

DhruvPathak · Answer 4 · 16 марта 2011

Это может помочь вам, если вы не хотите писать свои собственные алгоритмы:

http://dev.mysql.com/doc/refman/5.0/en/fulltext-natural-language.html

Как вычислить сходство между двумя строками в MYSQL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как вычислить сходство между двумя строками в MYSQL

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы