Это невозможно сделать разумно в MySQL .Поскольку вы также используете среду PHP, возможно, это возможно выполнить через PHP, но для достижения общего решения вам потребуются значительные усилия.
Файлы PDF состоят из (возможно, сжатых) потоковизображения и текст .Несколько библиотек могут пытаться извлечь текст и будут работать достаточно хорошо, если PDF был сгенерирован простым способом;однако, они обычно не будут работать, если какой-либо текст был отображен как изображения его символов, или если было применено другое использование.В этих случаях вам нужно будет использовать OCR , чтобы сгенерировать фактический текст, который отображается при отображении PDF.Также обратите внимание, что таблицы и изображения не входят в сферу применения этих инструментов.
Если у вас есть два текстовых файла, поиск совпадений становится намного проще, хотя есть несколько методов.«Те же 80%» можно интерпретировать несколькими способами, но давайте предположим, что копирование непрерывных 79% текста из файла и его повторное сохранение не должно вызывать тревоги, в то время как копирование 81% того же текста должно вызывать их.Любой инструмент diff может предоставить информацию о дублированных фрагментах, и этого может быть достаточно для ваших целей.Более сложный подход, который, однако, не дает точных процентов, состоит в использовании нормализованного расстояния сжатия .