Показаны результаты плагиата - PullRequest
0 голосов
/ 19 мая 2011

Я нахожусь в процессе разработки структуры обнаружения плагиата. Там мы сначала препроцессируем документы средствами обрезки, замены синонимов и удаления стоп-слов. Таким образом, предварительно обработанный документ несколько отличается от исходного документа.

После того, как мы введем предварительно обработанный документ в нашу функцию плагиата, он возвращает похожие предложения.

Затем в нашем графическом интерфейсе мы должны отобразить два документа и похожие предложения, выделив их.

Чтобы выделить в Java, мы должны получить индекс слов и выделить.

Проблема в том, что предварительно обработанный текст отличается от исходного документа, поэтому трудно проиндексировать подобные предложения в исходном документе.

Может кто-нибудь помочь мне с этой проблемой ??

1 Ответ

2 голосов
/ 19 мая 2011

Вам придется хранить какие-то метаданные с предварительно обработанным документом, что позволяет сопоставить его содержимое с исходным документом.Например, ведение списка всех пробелов, возникающих в результате удаления стоп-слов, или сохранения информации о том, где вы заменили слова синонимами.

Если вы записываете каждое изменение, внесенное во время предварительной обработки (расположение / замененный текст), то вам следуетбыть в состоянии найти оригинальную фразу в оригинальном документе.

...