Как проверить, существует ли pdf или те же 80% в mysql? - PullRequest
0 голосов
/ 08 июня 2018

Как проверить, существует ли pdf или те же 80% в mysql?Пользователь хочет загрузить PDF.Но проблема в том,Я думаю, что преобразовать PDF в двоичный файл => У меня будет строка «X» (двоичный файл этого PDF) для сохранения в MySQL.=> Выберите как% (сращивание (1/3 длины (X) -> 2/3 длины (X)). Возможно, сделайте это? Я использую laravel спасибо за чтение

1 Ответ

0 голосов
/ 08 июня 2018

Это невозможно сделать разумно в MySQL .Поскольку вы также используете среду PHP, возможно, это возможно выполнить через PHP, но для достижения общего решения вам потребуются значительные усилия.

Файлы PDF состоят из (возможно, сжатых) потоковизображения и текст .Несколько библиотек могут пытаться извлечь текст и будут работать достаточно хорошо, если PDF был сгенерирован простым способом;однако, они обычно не будут работать, если какой-либо текст был отображен как изображения его символов, или если было применено другое использование.В этих случаях вам нужно будет использовать OCR , чтобы сгенерировать фактический текст, который отображается при отображении PDF.Также обратите внимание, что таблицы и изображения не входят в сферу применения этих инструментов.

Если у вас есть два текстовых файла, поиск совпадений становится намного проще, хотя есть несколько методов.«Те же 80%» можно интерпретировать несколькими способами, но давайте предположим, что копирование непрерывных 79% текста из файла и его повторное сохранение не должно вызывать тревоги, в то время как копирование 81% того же текста должно вызывать их.Любой инструмент diff может предоставить информацию о дублированных фрагментах, и этого может быть достаточно для ваших целей.Более сложный подход, который, однако, не дает точных процентов, состоит в использовании нормализованного расстояния сжатия .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...