выявление плагиата с использованием алгоритма Дамерау Левенштейна - PullRequest
1 голос
/ 13 октября 2009

как мне смоделировать алгоритм расстояния Дамерау Левешштейна, чтобы обнаружить плагиат в документах? спасибо!

1 Ответ

3 голосов
/ 07 ноября 2010

Расстояние Левенштейна в основном используется для сравнения двух строк, таких как сравнение имен или поиск альтернатив в средстве проверки правописания. Использование этого алгоритма для всего документа для выявления плагиата не является типичным.

Хотя в этом районе есть работа. Все указывает на эту статью, которая требует подписки:

Обнаружение плагиата с использованием расстояния Левенштейна и алгоритма Смита-Уотермана

http://www.computer.org/portal/web/csdl/doi/10.1109/ICICIC.2008.422

Плагиат в текстах - это вопросы, вызывающие все большую обеспокоенность академического сообщества. В настоящее время наиболее распространенный текстовый плагиат происходит путем внесения множества незначительных изменений, которые включают вставку, удаление или замену слов. Такие простые изменения, однако, требуют чрезмерного сравнения строк. В этой статье мы представляем метод обнаружения гибридного плагиата. Мы исследуем использование диагональной линии, полученной из расстояния Левенштейна, и упрощенного алгоритма Смита Уотермана, который является классическим инструментом для идентификации и количественного определения локальных сходств в биологических последовательностях с целью применения в обнаружении плагиата. Наш подход позволяет избежать глобальных сравнений строк и учитывает психологические факторы, которые могут значительно ускорить результаты экспериментов. Основываясь на результатах, мы указываем практичность такого улучшения с использованием расстояния Левенштейна и алгоритма Смита-Уотермана и иллюстрируем повышение эффективности. В будущем было бы интересно изучить соответствующую эвристику в области сравнения текста

...