В файлах PDF некоторые данные являются текстовыми, а некоторые - потоками необработанных данных.
При написании парсера для PDF-файлов я использую NotePad ++ для просмотра файла, чтобы увидеть отдельные символы, а также HxD для просмотра шестнадцатеричных кодов.
Когда файл PDF открывается с помощью NotePad ++, он считает CR (0xOD 13) или LF (0x0A 10) символом конца строки и использует любой символ для отображения начало новой строки. Однако мне нужно только LF , чтобы считаться символом новой строки и начинать новую строку для целей отображения, и CR , чтобы не считаться символом новой строки.
Во время редактирования есть способ изменить символы EOL, введенные при нажатии клавиши возврата, (Меню: Правка -> Преобразование EOL) Я не могу найти способ изменить способ использования символов конца строки для форматирования дисплея .
Также есть языковая опция для PostScript, которая, если вы знаете, PDF является основой PDF; это также не форматирует строки по желанию.
Возможно ли в NotePad ++ заявить, что LF должен начинать новую строку для целей отображения и что CR следует рассматривать просто как другое значение для отображения?
Вот пример, показывающий, как NotePad ++ форматирует текст с CR и LF в качестве EOL, что не является необходимым.
Это должно быть только 4 строки.
Строка 2 разделена на CR , что нежелательно.
* * РЕДАКТИРОВАТЬ тысячу сорок-девять
На основании комментария Хулио .
Хотя я не считаю это приемлемым ответом, это хорошая работа. Размещено здесь для тех, кто может найти этот вопрос и хочет увидеть предложение.
Сделайте копию файла и затем измените его для просмотра в NotePad ++. В этом случае \r
заменяется на <was CR>
.
Это работает, потому что анализатор смотрит на исходный файл, а я смотрю на измененный файл с помощью NotePad ++.
Причина, по которой я не считаю этот ответ приемлемым, заключается в том, что я ищу изменение настройки в NotePad ++, подключаемого модуля или каких-либо других средств, которые легко сделать. Я не хочу регулярно делать копии многих файлов и изменять их.