У меня есть два файла субтитров.
Мне нужна функция, которая сообщает, представляют ли они один и тот же текст или похожий текст
Иногда комментарии типа «Ветер дует ... музыка играет» только в одном файле.
Но 80% процентов содержимого будет таким же. Функция должна возвращать TRUE (файлы представляют один и тот же текст).
И иногда есть неправильные написания, такие как 1 вместо l (один - L), как здесь:
Она перевела багаж .
Конечно, это означает, что функция должна возвращать TRUE.
Мои комментарии:
Функция должна возвращать процент сходства текстов - AGREE
"все люди были счастливы" и "все люди не были счастливы" - здесь это будет считаться опечаткой, так что это будет считаться одним и тем же текстом. Точнее, процент, который возвращает функция, будет ниже, но достаточно высок, чтобы сказать, что фразы похожи
Подумайте, хотите ли вы применить Левенштейна ко всему файлу или просто по строке поиска - не уверен насчет Левенштейна, но алгоритм должен применяться к файлу в целом. Хотя это будет очень длинная строка.