Я использую pdftotext
для преобразования файлов pdf в текстовые файлы utf-8, используя кодировку utf-8 по умолчанию. Например
pdftotext input.pdf output.txt
Некоторые текстовые файлы содержат то, что выглядит как розовые символы полного блока при просмотре в терминале Emacs 23.4.1. Вот скриншот.
Сначала я подумал, что это символ полного блока, поэтому я попытался удалить его в сценарии Perl.
$string =~ s/\x{2588}//g;
Это не удаляло персонажей. Я хотел бы знать, является ли это конкретным символом ошибки UTF-8, своего рода mojibake , вызванным pdftotext
, или проблемой с Emacs.