Будет ли PDF содержать символический (например, математика или доказательства) или текст на естественном языке (английский, французский и т. Д.)?
Если последнее, вы можете использовать частотную диаграмму для букв (орграфы, триграфы и небольшой словарь слов, если хотите пройти дистанцию). Я думаю, что, вероятно, есть несколько из них в Интернете. Вот начало. А конкретнее буквенных частот .
Затем, если вы уверены, что это сдвиг Цезаря, вы можете взять первые 1000 символов или около того и сдвинуть их вперед, увеличив количество до (я бы предположил) 127 или около того. Возьмите полученные тексты и посчитайте, насколько близко частоты соответствуют средним, которые вы нашли выше. Здесь - информация об этом.
На странице связанных частот букв в Википедии отображаются только буквы, поэтому вы можете исключить их из своего расчета или лучше найти в них диаграмму. Вы также можете преобразовать весь полученный текст в нижний или верхний регистр (ваши предпочтения), чтобы обрабатывать буквы одинаково независимо от регистра.
Редактировать - видел комментарий о замене символов
В данном случае это заменительный шифр, который все еще может быть взломан автоматически, хотя в этот раз вам, вероятно, понадобится диаграмма орграфа для дополнительного анализа. Это полезно, потому что вполне возможно будет замена, которая «ближе» к среднему языку с точки зрения анализа букв, чем правильная, но сравнение частот орграфа позволит вам исключить это.
Также я предложил сместить символы, а затем посмотреть, насколько близко частоты соответствуют средним языковым частотам. Вы можете сначала просто вычислить частоты в своем зашифрованном тексте, а затем попытаться выровнять их с хорошими значениями. Я не уверен, что лучше.