Нахождение вероятности плагиата в нескольких записях с использованием PHP - PullRequest
3 голосов
/ 18 мая 2011

Я работаю над веб-приложением, которое отслеживает записи службы поддержки.Мы хотим найти способ запретить людям копировать и вставлять свои заметки, касающиеся общих проблем, - мы хотим, чтобы оригинальные записи службы поддержки записывались для каждого вызова.

В любом случае у нас есть тысячи записей и некоторыеиз них похожи, я пытаюсь найти способ сравнить их все друг с другом и указать любые записи, которые очень похожи на другие, то есть 80%, вероятно, будет прямой копией и т. д.

IМы посмотрели на Similar_text () и несколько других встроенных функций PHP, но мне интересно услышать, делал ли кто-то что-то подобное раньше.Я не верю, что смогу эффективно использовать Similar_text (), поскольку мне нужно сравнивать несколько записей друг с другом, а не две строки.

Любой ввод приветствуется.

Ответы [ 3 ]

0 голосов
/ 18 мая 2011

Я думаю, что Similar_text () будет делать то, что вы хотите. Пока ваша машина имеет достаточно памяти для сравнения, она должна работать нормально. Также посмотрите на levenshtein () и soundex ().

0 голосов
/ 18 мая 2011

Прежде всего, почему тебя это волнует? Если это распространенная проблема, на которую можно ответить с помощью копирования и вставки, почему это не правильно? Звучит так, будто вы работаете ради работы.

Во-вторых, вы можете посмотреть что-то вроде: http://en.wikipedia.org/wiki/W-shingling

Если других представленных здесь вариантов недостаточно.

0 голосов
/ 18 мая 2011

Возможно, вы захотите попробовать попробовать базу данных Solr.Хотя ваша окончательная схема, вероятно, будет содержать много разных полей, основное поле будет иметь тип «текст» и будет содержать текст записи службы поддержки.Схема Solr по умолчанию (не требующая изменения) автоматически маркирует данные в текстовом поле, индексирует данные таким образом, что выполняется поиск синонимов, «города» будут соответствовать «городам» и т. Д.В конце концов, используя Solr, вы получите масштабируемое решение как с точки зрения производительности, так и с точки зрения функциональности.

...