Я нахожусь в процессе разработки структуры обнаружения плагиата. Там мы сначала препроцессируем документы средствами обрезки, замены синонимов и удаления стоп-слов. Таким образом, предварительно обработанный документ несколько отличается от исходного документа.
После того, как мы введем предварительно обработанный документ в нашу функцию плагиата, он возвращает похожие предложения.
Затем в нашем графическом интерфейсе мы должны отобразить два документа и похожие предложения, выделив их.
Чтобы выделить в Java, мы должны получить индекс слов и выделить.
Проблема в том, что предварительно обработанный текст отличается от исходного документа, поэтому трудно проиндексировать подобные предложения в исходном документе.
Может кто-нибудь помочь мне с этой проблемой ??