Какой алгоритм вы бы предложили определить, насколько от 0 до 1 (с плавающей запятой) два текста идентичны?
Обратите внимание, что я не имею в виду подобное (то есть, они говорят одно и то же, но в другомКстати, я имею в виду одни и те же слова, но в одном из двух текстов могут быть несколько другие слова или слова, которые могут немного отличаться, или новые строки и тому подобное.
Хороший пример алгоритма, который мне нужен, - это один из Google.использует для идентификации дублированного контента на веб-сайтах (результаты поиска X, очень похожие на показанные, были опущены, нажмите здесь, чтобы увидеть их).
Причина, по которой мне это нужно, заключается в том, что мой веб-сайт имеет возможность для пользователей публиковать сообщенияКомментарии;похожие, но разные страницы в настоящее время имеют свои собственные комментарии, поэтому многие пользователи в конечном итоге копируют и вставляют свои комментарии на все похожие страницы.Теперь я хочу объединить их (все похожие страницы будут «делиться» комментариями, и если вы разместите их на странице A, они появятся на аналогичной странице B), и я хотел бы программно удалить все эти копии и вставленные комментарии от одного и того же пользователя.
У меня довольно много миллионов комментариев, но скорость не должна быть проблемой, так как это единовременная вещь, которая будет работать в фоновом режиме.
Язык программирования на самом деле не имеет значения (до тех пор, пока он может взаимодействовать с базой данных MySQL), но я думал об этом на C ++.