Question

Я нахожусь в процессе разработки структуры обнаружения плагиата. Там мы сначала препроцессируем документы средствами обрезки, замены синонимов и удаления стоп-слов. Таким образом, предварительно обработанный документ несколько отличается от исходного документа.

После того, как мы введем предварительно обработанный документ в нашу функцию плагиата, он возвращает похожие предложения.

Затем в нашем графическом интерфейсе мы должны отобразить два документа и похожие предложения, выделив их.

Чтобы выделить в Java, мы должны получить индекс слов и выделить.

Проблема в том, что предварительно обработанный текст отличается от исходного документа, поэтому трудно проиндексировать подобные предложения в исходном документе.

Может кто-нибудь помочь мне с этой проблемой ??

Andreas_D · Answer 1 · 19 мая 2011

Вам придется хранить какие-то метаданные с предварительно обработанным документом, что позволяет сопоставить его содержимое с исходным документом.Например, ведение списка всех пробелов, возникающих в результате удаления стоп-слов, или сохранения информации о том, где вы заменили слова синонимами.

Если вы записываете каждое изменение, внесенное во время предварительной обработки (расположение / замененный текст), то вам следуетбыть в состоянии найти оригинальную фразу в оригинальном документе.

Показаны результаты плагиата

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Показаны результаты плагиата

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы