Python Библиотека для поиска дубликатов подстрок между текстовыми файлами в Python - PullRequest
1 голос
/ 28 января 2020

Я пытаюсь идентифицировать дубликаты блоков текста, содержащихся в произвольных местах внутри нескольких больших текстовых текстов, не зная заранее о текстах. То есть, учитывая n-много тел текста, игнорируйте части, которые дублируются между текстами.

Пример:

5 веб-страниц, каждая из которых содержит статью, а также меню навигации, нижний колонтитул, боковая панель и т. д. c.

Статья будет уникальной для каждой страницы, но содержимое в боковой панели, нижнем колонтитуле и меню навигации будет одинаковым.

Моя цель состоит в том, чтобы идентифицировать постатейный контент как дублирующий.

Некоторые примечания:

Я заранее не знаю содержимого дублированного контента .

Повторяющееся содержимое может находиться в любом месте в больших объемах текста между файлами. Это может продолжаться, предшествовать или смешиваться в пределах.

Дублированный контент должен быть идентифицирован от начала до конца sh. т. е. если весь абзац дублирован между файлами, подстрока этого абзаца не должна быть помечена как дубликат.

Я копаюсь в библиотеке Bio Python и ее последовательности- Соответствующие функции, кажется, на ходу. Я хотел бы найти еще один ориентированный на естественный язык.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...