На странице 1 есть два шрифта, и в обоих отсутствует какая-либо информация о кодировке в метаданных PDF. В частности, нет карты ToUnicode.
Поэтому программы чтения PDF должны полагаться на сам шрифт и, возможно, коды символов, используемые в потоке контента.
На приведенном ниже снимке экрана слева это данные шрифта в PDF, а справа - поток контента первой страницы. Как видите, первый символьный код 0x2e, который отображается на глиф "T", но в Unicode U + 002e это "точка". Следующий код символа - 0x08, который является управляющим символом. Вот почему, если вы выберете текст в PDF, первым символом будет «.» а второй будет мусором.
Почему PDF без cmap может отображать символы?
Поскольку Встроенный CMap шрифтов отображает коды символов в потоке содержимого страницы PDF на правильный глиф в шрифте, поэтому вы видите глифы, которые имеют смысл. Однако как в PDF, так и в самом шрифте отсутствуют какие-либо разумные сопоставления Unicode, поэтому вы получаете мусор при копировании + вставке текста.