Вы можете определить, отличаются ли два файла, запустив на них хеш (например, md5), но это не скажет вам степень сходства между ними.
Существуют бинарные программы сравнения, которые могут сказать вам, где два бинарных файла отличаются с приемлемыми результатами, но многие бинарные файлы, особенно контейнеры документов, могут показывать много двоичных различий, когда есть только незначительные внутренние различия содержимого.
Я не знаком с деталями формата pdf. Может быть, кто-то еще знает о встроенном механизме, который может помочь.